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内 容 提 要 


Python 具备 函数 式 编程 的 许多 核心 特征 ， 因 此 可 以 借鉴 其 他 函数 式 语言 的 设计 模式 和 编程 技术 ， 编 写 
出 简洁 优雅 的 代码 。 本 书 首先 介绍 函数 式 编程 的 一 般 概念 及 特点 ， 然 后 讲解 迭代 器 、 生 成 器 表达 式 、 内 置 
函数 、 常 用 高 阶 函 数 、 递 归 与 归 约 、 实 用 模块 和 装饰 器 的 用 法 ,以 及 避 开 Python 严格 求 值 顺序 的 变通 方法 、 
Web 服务 设计 方法 和 一 些 优化 技巧 。 

本 书 适 合 Python 开发 人 员 阅 读 。 
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函数 式 编程 为 创建 代码 简洁 明了 的 软件 提供 了 许多 技术 。 虽 
言 ， 但 仍然 可 以 使 用 Python 进行 函数 式 编程 。 






































然 Python 不 是 纯粹 的 函数 式 语 
Python 具备 也 数 式 编程 的 许多 核心 特 和 
程 技术 ， 编 



































F , 使 得 我 们 可 以 借鉴 其 他 函数 式 语言 的 设计 模式 和 编 

写 出 简洁 优雅 的 代码 。 尤 其 值得 一 提 的 是 Python 的 生成 器 表达 式 ， 使 用 它 可 以 避免 
在 内 存 中 创建 大 型 数据 结构 ， 通 过 降低 资源 消耗 来 提高 执行 速度 。 

Python 缺少 创建 纯粹 函数 式 程序 所 需 的 一 些 语言 特 生 

性 求 值 (lazy evaluation ) 以 及 优化 编译 器 等 。 











了 许多 典型 


At 


E, 例如 无 限 递归 、 针 对 所 有 表达 式 的 惰 
函数 式 编程 的 许多 核心 要 素 都 在 Python 中 有 所 体现 ， 例 如 函数 是 头等 对 象 。Python 还 提供 
的 高 阶 函 数 ， 例 如 广泛 使 用 的 内 置 map () 
以 及 不 那么 明显 的 sorted () 














本 书 通过 Python 语言 诠 
人 码 简洁 明了 的 Python 程序 。 














min() 和 max() 等 。 











filter() 和 functools.reduce() 等 
释 函 数 式 编程 的 核心 





























思想 ， 旨 在 利用 函数 式 编程 的 优点 ， 编 写 出 代 
目标 读者 
如 果 你 





希望 借鉴 函数 式 编程 语 
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的 技术 和 设计 模式 编写 出 简洁 明了 的 Python 程序 ， 本 书 便 
是 为 你 准备 的 。 某 些 算 法 用 函数 式 方法 编写 更 为 简洁 , 我 们 可 以 也 应 该 运用 函数 式 方法 编写 出 更 
易 读 且 更 易 维护 的 Python 程序 。 









































数据 结构 ， 耗 尽 机 器 的 内 存 和 CPU。 因 此 常用 生成 器 表达 式 代 替 大 型 列表 ， 前 者 在 保证 可 读 性 
的 前 提 下 ， 内 存 消耗 更 少 ， 运 算 速度 更 快 。 





可 以 通过 函数 式 编程 在 适宜 的 场景 中 开发 出 高 性 能 的 算法 ,但 Python 往往 会 生成 大 型 中 间 


本 书 内容 





第 1 章 : 函数 式 编程 概述 ， 介 绍 Python 中 函数 式 编 程 对 应 的 技术 和 话 言 特征 
设计 为 Python 程序 带 来 的 好 处 。 























FE， 以 及 函数 式 











第 2 章 : 函数 式 编程 的 特点 ,分析 函 数 式 编程 范式 的 6 个 核心 特征 ,以 及 每 个 特征 在 Python 
中 的 实现 方法 ， 还 会 讲 到 一 些 在 Python 中 不 易 实 现 的 函数 式 语言 特征 ， 例 如 为 了 支持 编译 优化 ， 
许多 语言 的 类 型 匹配 规则 非常 复杂 。 

第 3 章 : 函数 、 迭 代 器 和 生成 器 ， 介 绍 如 何在 Python 中 使 用 不 可 变 对 象 和 生成 央 表 达 式 ， 
如 何 将 函数 式 编程 的 核心 思想 应 用 于 Python 和 Python 内 置 的 集合 类 型 ， 以 及 如 何 将 函数 式 编程 
理念 运用 于 这 些 数据 结构 。 

第 4 章 : 使 用 集合 ， 介 绍 如 何 使 用 Python 的 内 置 函 数 操作 数据 集 。 其 中 重点 介绍 几 个 比较 
简单 的 函数 ， 例 如 any() 和 all()， 它 们 的 共同 点 是 能 将 集合 转换 为 单个 值 。 
第 5 章 : 高 阶 函 数 ， 介 绍 一 些 常 用 的 高 阶 函 数 ， 例 如 map () 和 filter()， 以 及 如 何 创 建新 
的 高 阶 函 数 。 

第 6 章 : 递归 与 归 约 ， 介 绍 如 何 使 用 递归 设计 算法 ， 以 及 使 用 for 循环 提升 性 能 ， 还 会 介 
绍 其 他 一 些 应 用 广泛 的 归 约 函数 ， 例 如 collections .counter()。 

第 7 章 : 元 组 处 理 技 术 , 介绍 使 用 不 可 变 的 元 组 和 命名 元 组 代替 状态 可 变 对 象 的 方法 。 相 比 
而 言 , 不 可 变 对 象 没有 误 用 属性 导致 对 象 行为 异常 (不 连续 或 无 效 ) 的 问题 , 用 起 来 更 简单 可 靠 。 

第 8 章 : itertools 模块 ， 介 绍 Python 标准 库 中 处 理 集合 和 生成 器 的 几 个 函数 ， 可 用 于 简 
化 处 理 集合 数据 的 程序 。 

第 9 章 : 高 级 itertools 技术 ,介绍 itertools 模块 中 不 太 常 用 的 组 合 器 函数 ， 并 演示 
错误 使 用 这 些 函数 导 致 的 组 合 器 膨胀 问题 。 

第 10 章 :; functools 模块 ， 介 绍 如 何 将 functools 模块 中 的 函数 用 于 函数 式 编程 。 此 模 
块 中 适用 于 构建 装饰 器 的 少数 函数 留待 第 11 章 讨 论 。 本 章 还 会 介绍 一 些 支 持 其 他 函数 式 编程 的 
基数 。 

第 11 章 : 装饰 器 设计 技术 ， 介 绍 如 何 用 装饰 器 构建 复合 函数 。 虽 然 使 用 装饰 器 能 给 程序 开 
发 带 来 很 大 的 灵活 性 ， 但 也 有 概念 限制 : 过 于 复杂 的 装饰 器 非但 无 用 ， 还 会 严重 降低 程序 的 可 
读 性 。 

第 12 章 : multiprocessing 和 threading 模块 , 介绍 函数 式 编程 的 一 大 优势 : 便于 分 流 
任务 负载 。 使 用 不 可 变 对 象 能 避免 设计 欠 佳 的 同步 写 人 操作 导致 运行 结果 不 可 预料 。 

第 13 章 : 条 件 表 达 式 和 operator 模块 , 介绍 避 开 Python 严格 求 值 顺序 的 一 些 变 通 方法 及 
其 局 限 性 ， 以 及 使 用 operator 模块 给 某 些 简单 的 处 理 带 来 的 轻微 提升 。 

第 14 章 : PyMonad 库 ， 介 绍 PyMonad 库 的 主要 特点 以 及 更 丰富 的 函数 式 编程 手段 ， 还 有 
单子 (monad )。 在 一 些 函 数 式 语言 中 ， 代 码 优化 会 打 乱 某 些 操作 的 顺序 ， 而 开发 者 可 以 使 用 单 
子 强制 程序 按照 期 望 的 顺序 执行 。 由 于 Python 按照 严格 的 顺序 对 表达 式 和 声明 求 值 ， 因 此 在 
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Python 中 ， 单 子 的 理论 研究 价值 高 于 实用 价值 。 

第 15 章 : Web 服务 的 函数 式 设 计 方 法 。 如 果 把 Web 服务 看 作 从 请 求 到 响应 的 转换 , 那么 可 
以 把 开发 Web 服务 看 作 开发 能 实现 该 转换 的 一 组 函数 。 本 章 将 介绍 如 何 借助 函数 式 编程 方法 构 
建 响应 式 动态 Web 内 容 。 

第 16 章 : 优化 与 改进 ， 介 绍 提 升 程序 性 能 的 一 些 方法 和 技巧 。 在 适合 的 场景 中 ， 这 些 方 法 
(例如 内 存 化 ) 不 但 易于 实现 ， 并 且 能 显著 提升 程序 性 能 。 


如 何 使 用 本 书 


阅读 本 书 需 要 读者 对 Python 3 和 应 用 开发 有 基本 了 解 。 本 书 不 会 涉及 Python 中 细微 、 复 杂 
的 语言 特性 ， 也 不 需要 读者 了 解 实现 语言 功能 的 内 部 机 制 。 

读者 需要 对 函数 式 编程 有 基本 了 解 。 由 于 Python 不 属于 函数 式 语言 ， 因 此 本 书 不 会 深入 探 
讨 函 数 式 编程 的 概念 ， 而 会 着 重 介绍 其 中 适用 于 Python 并 有 实用 价值 的 部 分 。 

书 中 的 部 分 示例 使 用 探索 性 数据 分 析 (EDA ) 引出 问题 , 演示 函数 式 编程 的 特点 。 对 统计 学 
和 概率 论 有 基本 了 解 有 助 于 理解 问题 。 只 有 很 少 一 部 分 示例 涉及 数据 科学 。 

你 的 计算 机 上 需要 安装 并 运行 Python 3.6。 关 于 Python 的 更 多 信息 ， 请 访问 http://www. 
python.org。 本 书 的 示例 代码 经 常 使 用 类 型 提示 ， 所 以 请 安装 最 新 版 本 的 mypy。 关 于 最 新 版 本 的 
mypy， 请 访问 https://pypi.python.org/pypi/mypy。 

第 9 章 的 示例 代码 使 用 了 PIL 和 BeautifulSoup 4。 为 了 保持 版 本 兼容 ， 使 用 了 PIL 库 的 新 分 
支 版 本 Pillow 代替 原始 PIL 库 , 详情 请 访问 https://pypi.python.org/pypi/Pillow/2.7.0 和 https://pypi. 
python.org/pypi/beautifulsoup4/4.6.0。 





































































































第 14 章 的 示例 代码 使 用 了 PyMonad 库 ,详情 请 访问 https://pypi.python.org/pypi/PyMonad/1.3。 
可 以 通过 如 下 命令 安装 以 上 所 有 库 。 
$ pip install pillow beautifulsoup4 PyMonad 

下 载 源 代码 


如 果 你 是 从 http://www.packtpub.com 网 站 购买 的 图 书 , 登录 自己 的 账号 后 就 可 以 下 载 所 有 已 
购 图 书 的 示例 代码 。 如 果 你 是 从 其 他 地 方 购买 的 图 书 ， 请 访问 http:/www.packtpub.com/support 
网 站 并 注册 ， 我 们 会 将 代码 文件 直接 发 送 到 你 的 电子 邮箱 。 


你 也 可 以 通过 以 下 步 又 下 载 代 码 文件 。 
(1) 在 我 们 的 网 址 上 登录 或 注册 。 























(2) 选择 SUPPORT 标签 。 
(3) 点 击 Code Downloads & Errata。 
(4) 在 Search 框 中 输入 书 名 并 按 屏幕 上 的 提示 操作 。 


文件 下 载 后 ， 使 用 以 下 工具 的 最 新 版 本 来 解压 缩 或 提取 文件 夹 。 


口 WinRAR /7-Zip ( Windows ) 
口 Zipeg /iZip/UnRarX ( Mac ) 
口 7-Zip /PeaZip ( Linux) 





本 书 代 码 也 托管 在 GitHub 上 ， 访 问 https://github.com/PacktPublishing/Functional-Python- 
Programming-Second-Edition/ 即 可 获取 ”。Packt 拥有 丰富 的 图 书 和 视频 资源 ， 相 关 代码 见 GitHub 
仓库 : https://github.com/PacktPublishing/。 欢 迎 查阅 1 








排版 约定 
本 书 如 下 约定 文本 样式 。 


正文 中 的 代码 采用 以 下 样式 :“Python 有 其 他 声明 ， 如 global 或 nonlocal， 用 于 在 特定 
命名 空间 中 修改 变量 的 规则 。” 


代码 块 的 样式 如 下 所 示 。 




















BE 
for n in range(1, 10): 
0 ORD S50 
S +=n 
print(s) 
如 果 代 码 块 的 特定 部 分 需要 注意 ， 相 应 的 行 或 项 会 加 粗 。 
SEE 
for n in range(1, 10): 
Th div 3 ES QO Nn co Bs 0: 
S += n 
print(s) 


命令 行 或 输出 如 下 所 示 。 
$ pip install pillow beautifulsoup4 PyMonad 


新 的 术语 和 重要 的 词语 将 显示 为 黑体 。 在 屏幕 上 (如 菜单 或 对 话 框 中 ) 出 现 的 文字 按 如 下 样 
式 显示 :“ 在 现 有 的 许多 范式 中 ,我们 重点 区 分 函数 式 编程 和 命令 式 编程 。 









































中 你 可 以 直接 访问 本 书 中 文 版 页 面 ， 下 载 本 书 项 目的 源 代码 :http://www.ituring.com.cn/book/2658。 一 一 编者 注 



































0 此 图 标 表示 警告 或 需要 特别 注意 的 内 容 。 


DD 此 图 标 表示 提示 或 技巧 。 





问题 与 反馈 
一 般 反 馈 : 发 送 邮 件 至 feedback@packtpub.com 并 在 主题 处 注 明 书 名 。 如 果 对 于 本 书 有 任何 
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函数 式 编程 通过 在 函数 中 定义 表达 式 和 对 表达 式 求 值 完成 计算 。 它 尽量 避免 由 于 状态 变化 和 
使 用 可 变 对 象 引 入 复杂 性 ,让 程序 变 得 简洁 明了 。 本 章 将 介绍 函数 式 编程 的 一 些 基 本 技术 ， 以 及 
如 何在 Python 中 运用 这 些 技术 。 最 后 会 介绍 通过 这 些 设计 模式 构建 Python 应 用 时 ， 函 数 式 编程 
带 来 的 好 人 处 。 


Python 包含 大 量 函 数 式 编程 特征 , 但 它 不 是 纯粹 的 函数 式 编程 语言 。 它 不 仅 具 备 函数 式 编程 
的 诸多 优势 ， 还 保留 了 命令 式 编程 的 强大 优化 能 力 。 


本 书 中 的 许多 示例 来 自 EDA 领域 。 使 用 函数 式 编程 方式 解决 该 领域 的 问题 可 以 很 好 地 展示 
其 特点 ， 而 且 与 其 他 解决 方法 相 比 有 明显 优势 。 


本 章 的 主要 目标 是 介绍 函数 式 编程 的 基本 原则 ， 第 2 章 开始 编写 Python 代码 。 




































































种 本 书 主要 使 用 Python 3.6 作为 实现 语言 ， 部 分 示例 也 可 以 在 Python 2 中 运行 。 


1.1 编程 范式 


编程 范式 并 没有 统一 的 划分 标准 。 本 书 重 点 分 析 其 中 两 个 范式 : 函数 式 编程 和 命令 式 编程 。 
二 者 最 重要 的 特征 区 别 是 状态 。 


在 命令 式 语言 ( 比如 Python ) 中 , 计算 的 状态 是 通过 不 同 命名 空间 中 变量 的 值 反 映 的 。 变 量 
的 值 决定 计算 的 当前 状态 ， 一 条 语句 通过 增加 或 改变 ( 甚至 是 删除 ) 变量 来 改变 当前 状态 。“ 命 
令 式 ” 语 言 的 每 一 条 语句 都 是 一 个 通过 某 种 方式 改变 状态 的 命令 。 


本 书 主要 关注 赋值 语句 以 及 它 如 何 改变 状态 。 除 此 之 外 , Python 中 的 其 他 语句 包括 用 于 在 命 
令 空 间 中 改变 变量 规则 的 global、nonlocal 等 ， 用 于 改变 变量 所 处 语 境 的 aef 、class 和 
import 等 , 用 作 判 断 条 件 确 定 一 组 语句 如 何 改变 计算 状态 的 try、except、if、elif 和 else 
等 。 而 循环 语句 ， 如 for 和 while， 则 是 将 一 组 语句 作为 整体 以 重复 改变 计算 状态 。 可 见 所 有 
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这 些 语句 都 是 通过 某 种 方式 改变 变量 状态 的 。 


理想 状态 下 ， 每 一 条 语句 通过 改变 状态 ， 推 动 计算 从 初始 状态 向 期 望 的 最 终结 果 不 断 靠近 。 
然而 ， 这 种 “推动 计算 一 步 步 向 前 ”的 模式 难以 验证 。 需 要 首先 定义 出 最 终 状 态 ， 找 到 能 达到 该 
状态 的 语句 ， 从 而 推导 出 达到 该 状态 需要 的 前 提 条 件 , 然后 重复 上 述 步骤 ， 直 到 找到 一 个 可 接受 
的 初始 状态 。 


在 函数 式 语言 中 ,使 用 “对 函数 求 值 ” 这 一 更 简单 的 概念 代 将 改变 变量 值 的 “状态 ”"， 每 次 
对 函数 求 值 都 会 在 现 有 对 象 的 基础 上 创建 一 个 或 多 个 新 对 象 。 函数 式 程序 即 函 数 的 组 合 , 相应 的 
开发 过 程 是 : 首先 设计 一 组 易于 理解 的 底层 函数 ,然后 在 此 基础 上 设计 符合 业务 需求 的 高 级 函数 。 
相 比 于 由 复杂 的 流程 控制 组 成 的 指令 集合 ， 高 级 函数 更 容易 可 视 化 。 

形式 上 ， 函 数 求 值 更 接近 算法 的 数学 表达 。 以 简单 的 代数 形式 设计 算法 ,便于 处 理 特殊 情况 
和 边界 条 件 ， 而 且 函 数 更 有 可 能 按照 预期 工作 ， 也 便于 编写 单元 测试 用 例 。 

请 注意 , 通常 函数 式 程序 比 功能 相同 的 命令 式 ( 面向 对 象 或 者 过 程式 的 ) 程序 更 加 简洁 明了 
和 高 效 , 但 这 些 优点 并 不 是 自然 而 然 的 , 需要 仔细 地 设计 , 但 付出 的 努力 通常 少 于 设计 功能 类 似 
的 过 程式 程序 。 
















































































1.2 ” 细 分 过 程 范 式 

命令 式 编 程 可 以 再 细 分 为 多 个 子 类 别 , 本 节 简 单 介绍 过 程式 编程 和 面向 对 象 编程 的 区 别 , 并 
重点 讲解 面向 对 象 属于 命令 式 编程 的 原因 。 过 程式 编程 和 面向 对 象 编程 虽然 有 区 别 , 但 它们 与 函 
数 式 编程 的 差别 更 大 。 

下 面 通过 代码 示例 解释 这 些 概 念 。 有 些 人 觉得 这 么 做 是 在 重新 造 轮子 , 然而 这 其 实 是 抽象 概 
念 的 具体 表现 。 

对 于 某 些 计算 过 程 ， 完 全 可 以 忽略 Python 的 面向 对 象 特 点 ， 只 使 用 简单 的 数值 计算 。 例 如 
用 下 面 的 方法 可 以 得 到 一 组 属性 相同 的 数 。 
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fo Tr Tn Fandge (wl; TO) 
a te 50 
S += 1n 
DELTNE (tS) 

















和 m 仅 包括 3 或 5 的 倍数 。 以 上 程序 是 严格 过 程式 的 ， 避 免 使 用 Python 的 任何 面向 对 象 特 
征 。 程 序 的 状态 由 变量 s 和 mn 定义 ,变量 n 的 取 值 范围 是 1~10， 每 次 循环 中 n 的 值 依次 增加 ， 
可 以 确定 n == 10 时 循环 结束 。 使 用 类 似 的 原始 数据 结构 ， 完 全 可 以 用 C 或 者 Java 编写 出 功能 
相同 的 程序 。 
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下 面 利用 Python 的 面向 对 象 编程 (object-oriented programming，OOP ) 特征 编写 一 段 类 似 的 oe 
代码 。 





Th list() 
for n in range(1, 10): 
(0 eh a We 


m.append (n) 
print (sum(m)) 
程序 运行 结果 与 前 面 的 结果 相同 , 但 它 内 部 维护 了 一 个 状态 可 变 的 集合 对 象 m, 计算 状态 由 
m 和 nn 定义。 


m.append (n) 和 sum(m) 令 人 费解 的 语法 让 一 些 开发 者 误 以 为 Python 不 是 纯粹 的 面 癌 对 象 
语言 : 它 混合 了 function() 和 object .method() 两 种 语法 。 然而 事实 上 Python 是 纯粹 的 面向 
对 和 象 语言 , 一 些 语言 (例如 C++ ) 允许 使 用 非 对 象 的 原始 数据 类 型 ,例如 int、float 和 long。 
Python 中 没有 原始 数据 类 型 ， 前 级 的 语法 形式 不 会 改变 语言 的 本 质 。 


严格 地 说 ,完全 可 以 采用 纯粹 的 面向 对 象 风格 ,基于 1ist 类 生成 一 个 包含 sum 方法 的 子 类 。 


class Summable_List (list): 
def sum(self): 
S00 
for V in self: 
S += V 
return s 


接 下 来 使 用 summable_List () 类 代替 1ist () 方 法 初始 化 变量 m， 就 可 以 用 m. sum() 方 法 
代替 sum (m) 方 法 来 对 m 求 和 了 。 该 示例 可 以 证 明 Python 是 纯粹 的 面向 对 象 语言 , 前 绥 的 使 用 仅 
是 语法 糖 而 已 。 

前 面 3 个 例子 都 基于 变量 值 显 式 确定 程序 的 状态 ,使 用 赋值 语句 改变 变量 值 , 推动 计算 前 进 。 
我 们 可 以 在 程序 中 插入 assert 语句 ， 确 保 程序 状态 完全 按照 要 求 变化 。 

关键 之 处 不 是 命令 式 编程 存在 某 种 缺陷 , 而 是 函数 式 编程 是 一 种 思维 方式 的 转变 , 这 种 改变 
适用 于 许多 场景 。 下 面 介 绍 如 何 用 函数 式 方法 编写 同一 个 算法 , 你 会 发 现 函 数 式 编程 并 没有 使 算 



















































































1.2.1 使 用 函数 式 范 式 
在 函数 式 编程 中 , 求 3 或 5 的 倍数 可 分 为 两 部 分 。 


口 对 一 系列 数值 求 和 。 
口 生成 一 个 满足 某 个 条 件 的 序列 ， 例 如 3 或 5 的 倍数 组 成 的 序列 。 


一 个 列表 的 和 的 递归 形式 定义 如 下 。 
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def Sumr(sed) : 
if len(sedq) == 0: return 0 
return seq[0] + sumr (seq[1:]) 


可 以 把 序列 的 和 分 为 两 种 情况 。 基 础 形式 : 一 个 长 度 为 0 的 序列 ， 和 为 0。 递归 形式 : 序列 
的 和 等 于 序列 中 的 第 一 个 元 素 加 上 序列 中 后 续 元 素 的 和 。 


由 于 递归 形式 的 序列 长 度 小 于 原 序 列 ， 所 以 任何 长 度 有 限 的 序列 最 终 都 会 退化 为 基础 形式 。 
该 函数 运行 示例 如 下 。 


>>> sumr([7, 11]) 
18 

>>> 7+Sumr([11]) 
18 

>>> 18+Ssumr([]) 

0 














第 一 个 例子 计算 了 包含 多 个 值 的 列表 之 和 。 第 二 个 例子 演示 了 递归 规则 将 第 一 个 值 segq[0] 
和 后 续 所 有 值 的 和 seq[1:1] 相 加 。 最 后 一 个 计算 包含 了 对 空 列表 求 和 ， 其 值 定义 为 0。 


这 个 例子 中 ， 代 码 最 后 一 行 的 + 运算 符 和 初始 值 0 表明 其 为 求 和 。 如 果 将 运算 符 从 + 改 为 *， 
将 初始 值 从 0 改 为 1， 则 表明 其 为 序列 乘积 。 后 面 会 详细 介绍 这 种 抽象 化 方法 。 


对 于 一 列 值 ， 可 以 用 类 似 的 方法 递归 ， 定 义 如 下 。 


def until(n, filter_ func, v): 
if Vv == n: return [] 
if filter_ func(v): return [v] + until(n, filter_ func, v+1) 
else: return until(n, filter_ func, v+1) 








该 函数 的 基础 形式 为 : 给 定 一 个 值 v 和 一 个 上 限 n， 如 果 v 达到 上 限 ， 则 返回 一 个 空 列表 。 








根据 filter_func() 函数 的 不 同 返 回 值 ， 递 归 形 式 有 两 种 情况 。 如 果 v 通过 了 
filter_func() 函数 的 测试 , 返回 一 个 序列 , 则 该 序列 的 第 一 个 元 素 是 v, 后 续 元 素 由 until () 
作用 于 后 续 序 列 的 返回 值 组 成 。 如 果 v 没有 通过 filter_func () 函数 的 测试 ,将 忽略 该 值 ， 返 
回 值 由 函数 作用 于 剩余 元 素 得 到 的 值 组 成 。 


可 以 看 到 v 在 每 次 递归 中 递增 ， 直 到 达到 上 限 n， 也 就 是 基础 形式 。 


下 面 介绍 如 何 使 用 unti1 () 函数 生成 3 或 $ 的 倍数 。 首 先 定义 一 个 用 于 筛选 数值 的 lambaa 
对 象 。 
入 六 下 二 3 全 下 IOG 有 玉生 035 ES 0 GF XK 0 


( 这 里 使 用 1ambqda 定义 简单 函数 是 为 了 保持 简洁 。 如 果 函 数 比 较 复 杂 ， 多 于 一 行 代 码 ， 请 
使 用 def 语句 。 ) 






























































从 命令 提示 符 界面 观察 1ampbqa 的 行为 ， 如 下 所 示 。 


>>> mult_ 3 5(3) 
True 
>>> mult_3 5(4) 
False 
>>> mult_3_5(5) 
True 


结合 until 数 ， 它 可 以 生成 一 系列 3 或 5 的 倍数 。 
使 用 until 数 生成 一 系列 值 ， 如 下 所 示 。 


>>> until(10, lambda x: x%3 ==0 orx®%5 == 0, 0) 

[0, 3, 5, 6, 9] 

然后 可 以 使 用 之 前 定义 的 递归 版 sum() 函数 计算 一 系列 数值 的 和 了 。 这 里 将 用 到 的 所 有 函数 ， 
包括 sum()、until() 和 mult_3_5(), 都 定义 为 递归 的 , 计算 时 不 需要 使 用 临时 变量 保存 计算 
状态 。 


之 后 还 会 多 次 用 到 这 种 纯粹 递归 风格 的 函数 来 定义 思想 。 请 注意 , 许多 函数 式 语言 的 编译 屁 
可 以 优化 此 类 简单 的 递归 函数 ， 但 Python 不 会 进行 此 类 优化 。 


() 函 
() 函 





























1.2.2 ”使 用 混合 范式 


b 
下 面 介绍 如 何 用 函数 式 编 码 实现 前 面 计算 3 或 5 的 倍数 的 例子 。 混合 型 函数 的 实现 代码 如 下 
所 示 。 


DintCewin For nm, Ln ange(Ly: 10) LE 0 全 全 S90) 


这 里 使 用 了 骨 入 式 生 成 器 表达 式 迭 代数 值 集合 ， 并 计算 它们 的 和 。range (1，10) 方 法 是 可 
迭代 的 , 所 以 它 是 一 种 生成 器 表达 式 , 返回 一 个 数值 序列 {|1 <n<10}。n forn in rangel(1, 
10) if n $3 == 0 orn%5 == 0 稍 复 杂 一 些 , ,但 它 也 是 可 迭代 表达 式 ， 返 回 一 个 数值 集合 
种 11 和 2<10^(O mod3=0vn mod5=0)} 。 变 量 n 与 集合 中 的 每 个 值 绑 定 ， 表 示 集 合 的 内 容 ， 
而 非 当 前 的 计算 状态 。sum( ) 方 法 的 输入 值 是 一 个 可 迭代 表达 式 ， 输 出 最 终 计算 结果 : 对 象 23。 
































绑 定 变量 仅 存 在 于 生成 器 表达 式 内 部 ， 上 述 程 序 中 ， 变 量 n 在 生成 器 表达 式 之 
外 是 不 可 见 的 。 
可 以 将 表达 式 中 的 if 从 句 看 作 独 立 的 函数 ， 便 于 用 其 他 函数 替换 它 。 可 以 使 用 一 个 名 为 
filtex() 的 高 阶 函 数 代替 上 面 生 成 器 表达 式 中 的 if 从 名， 第 5 章 会 详细 介绍 高 阶 函 数 。 
这 个 例子 中 的 变量 n 不 同 于 前 面 两 个 命令 式 实现 中 的 变量 n ,生成 器 表达 式 之 外 的 for 语句 
在 本 地 命名 空间 中 创建 变量 ， 而 生成 器 表达 式 并 不 创建 for 语句 式 的 变量 。 
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>>> sum(n for n in range(1，10) if n%3 == 0ormn%5 == 0) 
23 
>>> n 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
NameError: name 'n' is not defined 


生成 器 表达 式 绑 定 的 范围 外 不 存在 变量 n， 即 它 并 不 定义 计算 状态 。 


1.2.3 对象 的 创建 过 程 


在 某 些 情况 下 ， 观 察 中 间 对 象 有 助 于 理解 计算 过 程 ， 但 请 注意 ， 计 算 的 路 径 并 不 是 唯一 的 。 
当 函 数 满足 交换 律 和 结合 律 的 时 候 , 改变 求 值 顺序 会 创建 出 不 同 的 中 间 对 象 。 通 过 这 种 方式 ,可 
以 在 保证 计算 正确 性 的 同时 提升 计算 性 能 。 

以 下 面 这 个 表达 式 为 例 : 


>>> 1+2+3+4 
10 


下 面 讲解 不 同 的 计算 过 程 是 如 何 得 到 相同 的 计算 结果 的 。 由 于 + 运算 符 满足 交换 律 和 结合 律 ， 
有 许多 条 计算 路 径 都 能 得 到 相同 结 


根据 选择 待 计算 值 顺序 的 不 同 ， 有 以 下 两 种 主要 的 计算 路 径 。 


>>> ((1+2)+3)+4 
10 
>>> 1+(2+(3+4)) 
10 


第 一 种 情形 是 从 左 向 右 结合 并 求 值 ， 此 时 对 象 3 和 6 作为 求 值 过程 的 中 间 对 象 被 创建 出 来 。 

第 二 种 情形 则 是 从 右 向 左 结合 并 求 值 ， 中 间 对 象 是 7 和 9。 在 这 个 简单 的 整数 算术 运算 中 ， 
两 种 方式 的 表现 相同 ， 优 化 无 助 于 提升 性 能 。 

涉及 数组 的 追加 操作 时 ， 改 变 结合 方式 可 能 会 提升 性 能 。 

示例 如 下 。 

>>> import timeit 

>>> timeit.timeit("((([]+[1])+[2])+[3])+[4]") 

0.8846941249794327 


>>> timeit.timeit("[]+([1]+([2]+([3]+[4])))") 
1.0207440659869462 


可 以 看 到 ， 从 左 向 右 计算 性 能 更 佳 。 


对 于 函数 式 编程 的 设计 ， 以 任意 顺序 使 用 + 运算 符 (或 者 aaa ( ) 函数 )， 结果 不 变 ， 即 + 运算 
符 不 影响 使 用 方式 。 
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1.2.4 乌龟 塔 [二 


严格 意义 上 ，Python 的 本 数 式 编程 并 非 国 数 式 的 ，Python 不 是 Haskell、OCaml 或 Erlang。 

请 注意 , 真正 完成 计算 过 程 的 处 理 需 硬件 本 身 就 不 是 函数 式 的 ,甚至 严格 意义 上 不 是 面向 对 象 的 ， 
CPU 实际 上 是 过 程式 的 。 
所 有 的 编程 语言 都 基于 抽象 、 库 、 框 架 和 虚拟 机 , 这 里 的 抽象 又 基于 更 底层 的 抽象 、 

库 、 框 架 和 虚拟 机 。 有 个 很 形象 的 比喻 : 整个 世界 被 一 只 大 乌龟 驮 在 背 上 ， 这 只 大 乌龟 

又 被 另外 一 只 更 大 的 乌龟 驮 在 背 上 ， 这 只 更 大 的 乌龟 又 被 一 只 比 它 还 大 的 乌龟 驮 在 背 






































一 一 佚名 
抽象 形成 的 层 是 无 尽 的 。 
更 重要 的 是 ， 这 种 抽象 和 虚拟 机 并 不 会 影响 通过 Python 的 函数 式 特性 设计 软件 。 


即使 在 函数 式 语言 内 部 ,也 存在 更 纯粹 的 语言 和 不 太 纯 粹 的 语言 有 些 语言 经 常 使 用 monads 
处 理 像 文件 系统 输入 、 输 出 这 样 有 状态 的 事务 ， 男 外 一 些 语言 则 使 用 类 似 于 Python 的 混合 型 环 
境 ， 通 过 仔细 地 隔离 含有 状态 的 过 程式 动作 来 设计 函数 式 的 软件 。 


本 书 的 函数 式 Python 编程 基于 以 下 3 层 抽象 。 


口 应 用 由 水 数组 成 ， 直 到 层 层 分解 碰 到 对 和 象 。 
口 支撑 函数 式 编程 的 Python 运行 时 环境 是 由 对 象 组 成 的 ， 直 到 层 层 分解 碰 到 库 。 
口 支撑 Python 运行 的 库 就 是 驮 着 Python 的 乌 包 。 


更 底层 的 操作 系统 和 硬件 有 它们 各 自 的 马 龟 塔 ， 而 且 与 我 们 要 处 理 的 问题 无 关 。 


1.3 ”函数 式 编 程 经 典 示例 

本 节 基 于 John Hughes 的 论文 “Why Functional Programming Matters”， 来 分 析 一 个 函数 式 编 
程 的 经 典 实例 ， 这 篇 文章 出 自 论 文集 Research Topics in Functional Programming。 

此 论文 深入 分 析 了 函数 式 编程 , 并 提供 了 几 个 例子 , 我 们 只 分 析 其 中 的 一 个 : 用 Newton-Raphson 
算法 求解 函数 (平方 根 函 数 )。 

该 算法 的 许多 实现 都 是 通过 loops 显 式 管 理 状态 的 ， 比 如 Hughes 的 论文 中 就 给 出 了 一 段 
Fortran 代码 ， 通 过 有 状态 的 命令 式 流程 求解 。 

算法 的 主体 是 如 何 根据 当前 的 近似 值 计算 出 下 一 个 近似 值 。 函 数 next_() 以 sqrt tn) 的 当前 
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近似 值 x 为 参数 ， 计 算出 下 一 个 近似 值 ， 并 确保 最 终 解 就 在 之 前 近似 值 的 范围 内 ,代码 如 下 所 示 。 


def next_(n, x): 
return (x +n/ x) /2 


_ (a,+n/a,) 


该 丽 数 计算 出 一 系列 值 w = -2 ， 相 近 两 个 值 的 距离 每 次 迁 代 减 半 ， 所 以 会 迅速 收 
敛 到 a = 了， 即 a= Yn。 这 里 没有 将 移 代 函数 命名 为 next () ， 以 避免 与 Python 的 内 置 函 数 发 生 
冲突 ， 使 用 next_() 保 证 在 不 冲突 的 前 提 下 尽量 清晰 地 表达 出 函数 的 功能 。 

在 命令 提示 符 界面 使 用 该 函数 ， 如 下 所 示 。 


> 
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>>> 工 lambda x: next_(n, x) 

>>> a0 = 1.0 

>>> [round(x,4) for x in (a0, f(a0), f(f(a0)), £f(£f(f(a0))),)] 
[1.0, 1.5, 1.4167, 1.4142] 


首先 定义 收敛 到 V2 的 lambda 表达 式 并 赋值 给 变量 £, 将 变量 ao 作 为 初始 值 , 然后 对 一 系列 
递归 值 求 值 ，a, = f(a,) 、@ = f(f(ao)) ， 等 等 。 将 这 些 函 数 放 在 一 个 生成 器 表达 式 中 ， 便 于 对 
返回 值 做 指定 精度 的 四 舍 五 人 ， 从 而 使 计算 结果 更 易 读 ， 并 便于 doctest 使 用 。 该 序列 会 快速 
地 向 V2 收敛 。 


我 们 可 以 编写 一 个 函数 ， 生 成 一 个 含 a; 的 无 限 长 序列 ， 疝 平方 根 收敛 。 


def repeat (f, a): 
yield a 
for V in repeat (f, f(a)): 
yield v 


该 函数 利用 近似 函数 E() 和 初始 值 a 生成 近似 值 。 如 果 把 近似 函数 替换 成 前 面 定 义 的 next_() 
函数 ， 就 可 以 得 到 关于 参数 n 平方 根 的 一 系列 近似 值 。 
其 中 repeat () 函数 要 求 f() 函数 只 有 一 个 参数 ,而 定义 的 next_() 函数 有 两 个 
参数 。 可 以 用 一 个 匿名 函数 对 象 lambda x: next_(n，x) 绑 定 其 中 一 个 变量 ， 
2 创建 next_() 函数 的 部 分 绑 定 版 本 。 

















Python 的 生成 器 串 数 不 能 自动 实现 递归 , 必须 显 式 选 代 递归 结果 , 并 一 个 一 个 单 
独 生 成 计算 结果 。 使 用 return repeat(E，f(a) ) 并 不 能 多 次 循环 生成 一 系列 
值 ， 而 会 结束 迭代 并 返回 一 个 生成 器 表达 式 。 

有 两 种 方法 可 以 返回 一 系列 值 ， 而 不 是 生成 器 表达 式 。 

口 编写 显 式 for 循环 : for x in some_iter: yield x 

口 使 用 yielq from 语句 : yield from some_iter 
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从 递归 生成 器 表达 式 中 返回 结果 ， 这 两 种 方法 的 效果 相同 ， 这 里 倾向 于 使 用 yiela from 
语句 。 不 过 在 有 些 情况 下 ，yiela 结合 复杂 表达 式 ， 往 往 比 相应 的 映射 和 生成 器 表达 式 更 清晰 。 


当然 ,我 们 并 不 想 计 算 无 限 长 序列 ， 只 要 两 次 迭代 的 近似 值 足够 接近 ,就 可 以 任 取 其 中 一 个 
作为 最 终 解 。 通 常用 希腊 字母 。 表 示 两 个 值 足够 接近 ， 这 里 的 含义 是 计算 平方 根 的 误差 上 限 。 


在 Python 中 ， 我 们 需要 设法 从 无 限 序 列 中 一 次 取 一 个 值 ， 通 常 把 复杂 的 递归 包 囊 在 简单 的 
接口 函数 中 ， 见 如 下 代码 片段 。 


def within(e, iterable): 
def head tail(e, a, iterable): 
b = next (iterable) 
if abs(a-b) <= &: return b 
return head tail(le, b, iterable) 
return head tail(e, next (iterable), iterable) 


首先 定义 了 内 部 函数 heaq_tail() ， 以 误差 允许 范围 e、 可 迭代 序列 中 的 一 个 值 a 和 可 和 迭 
代 序 列 的 剩余 部 分 iterable 为 参数 ，iterable 的 下 一 个 值 与 变量 b 绑 定 。 如 果 |a-pl 和 es ， 
两 个 值 距 离 足够 近 ， 表 明 已 找到 平方 根 的 解 ; 否则 以 p 为 参数 ， 递 归 调 用 函数 headq_tail()， 
以 获取 下 一 次 迭代 的 近似 值 。 

函数 within () 只 需要 用 参数 iterable 的 第 一 个 值 初始 化 内 部 的 nead_tail () 函数 ,后 
面 由 递归 自动 完成 。 

有 些 函 数 式 语言 允许 将 一 个 值 放 回 可 迭代 序列 ， 在 Python 中 ， 这 类 似 于 用 unget () 或 者 
previous () 方 法 将 一 个 值 追加 到 迭代 器 中 ， 然 而 Python 的 可 送 代数 据 结构 并 没有 提供 这 种 高 级 
功能 。 

结合 上 面 3 个 郴 数 next_() 、repeat () 和 within()， 即 可 创建 求 平方 根 函 数 。 


def sqrt(a0, &, n): 
return within(e, repeat (lambda x: next_(n,x), a0)) 


repeat () 荫 数 基于 next_(n, x) 函数 生成 一 个 ( 可 能 的 ) 无 限 长 序列 ， 当 两 次 迭代 值 之 差 
小 于 s 时 ，within() 即 停止 序列 继续 生成 值 。 
使 用 这 个 sqrt () 函数 需要 提供 一 个 初始 值 a0 和 误差 值 s， 表 达 式 sart(1.0，.0001，3) 
表示 从 初始 估计 值 1.0 开始 计算 V3 ， 误 差 值 为 0.0001。 对 于 大 多 数 应 用 ， 初 始 值 可 以 选择 1.0， 
不 过 初始 值 与 实际 平方 根 越 接近 ， 函 数 收敛 越 快 。 

以 上 近似 算法 的 最 初版 本 是 用 Miranda 语言 编写 的 , 可 以 看 到 Miranda 和 Python 的 实现 之 间 


有 一 些 显著 区 别 ， 主 要 是 Miranda 可 以 构建 cons， 可 以 通过 类 似 于 unget 的 方式 将 值 放 回 可 和 迭 
代 对 象 中 。Miranda 和 Python 的 这 种 对 比 说 明了 Python 适用 于 实现 多 种 函数 式 编程 技术 。 
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1.4 EDA 


本 书后 续 章 节 的 函数 式 编程 示例 大 多 来 自 EDA 领域 ， 该 领域 包含 很 多 处 理 复杂 数据 集 的 算 
法 和 技术 ， 函 数 式 编程 往往 能 很 好 地 连接 起 问题 领域 和 解决 方案 。 


虽然 每 个 人 有 自己 的 行事 风格 ， 但 处 理 EDA 领域 的 问题 通常 可 以 划分 成 下 面 几 个 阶段 。 


口 准备 数据 : 主要 是 抽取 和 变换 源 应 用 中 的 数据 。 例 如 解析 原始 数据 格式 ， 对 数据 执行 某 
种 程度 的 清洗 ( 比如 移 除 不 可 用 数据 和 异常 数据 等 )， 这 是 函数 式 编程 擅长 的 领域 。 

口 数据 探测 : 对 数据 进行 初始 画像 ， 通 常 使 用 一 些 基 本 的 统计 函数 来 完成 ， 这 也 是 函数 式 
编程 擅长 的 领域 。 用 专业 术语 讲 ， 该 阶段 我 们 关注 数据 的 单 变 量 和 双 变 量 统计 特征 ， 实 
际 上 就 是 数据 的 描述 性 统计 特征 值 ， 包 括 平 均值 、 中 位 数 、 众 数 等 。 数 据 探测 还 可 能 六 
及 数据 可 视 化 ， 但 本 书 不 探讨 这 个 主题 ， 因 为 它 不 怎么 采用 函数 式 编程 。 如 果 你 感 兴趣 ， 
可 以 尝试 一 些 工具 包 ， 例 如 SciPy。 访 问 如 下 网 址 ， 可 获取 有 关 SciPy 工作 原理 和 使 用 方 
法 的 更 多 信息 。 











































































































mm https://www.packtpub.com/big-data-and-business-intelligence/learning-scipy-numerical-and- 
scientific-computing 


mm https://www.packtpub.com/big-data-and-business-intelligence/learning-python-data-visualization 


口 数据 建 模 与 机 器 学 习 : 主要 解决 如 何 从 已 有 模型 中 提取 新 数据 ， 但 本 书 不 涉及 ， 因 为 从 
数学 角度 看 有 些 模 型 十 分 复杂 ， 讨 论 这 些 问 题 无 助 于 理解 函数 式 编程 。 
口 评估 与 比较 : 当 存 在 多 个 可 用 模型 时 ， 就 需要 针对 当前 数据 评估 哪个 模型 更 适合 。 此 过 
程 主要 涉及 计算 模型 常用 的 一 些 描述 型 统计 特征 值 ， 函 数 式 设计 技术 能 有 所 帮助 。 


EDA 的 目标 是 创建 模型 为 应 用 决策 提供 依据 。 很 多 情况 下 ， 一 个 模型 可 能 就 是 一 个 简单 的 
函数 。 使 用 函数 式 编程 方式 ， 便 于 将 已 有 模型 应 用 于 新 数据 ， 生 成 业务 人 员 可 以 理解 的 结果 。 





































































































1.5 ”小结 


本 章 主要 介绍 了 编程 范式 ， 并 比较 了 函数 式 编程 和 男 外 两 种 常用 的 命令 式 编程 范式 的 区 别 。 
本 书 旨 在 向 读者 介绍 Python 的 函数 式 编程 特征 。 我 们 讲 到 了 Python 并 非 纯 粹 的 函数 式 编程 语言 ， 
Python 函数 式 编程 的 指导 思想 是 将 简洁 明了 的 函数 式 编程 与 性 能 优化 相 结 合 ， 形 成 有 Python 特 
色 的 混合 式 编程 方法 。 


下 一 童 将 详细 介绍 函数 式 编程 的 5 种 基本 技术 ， 这 些 技术 构成 了 Python 混合 函数 式 编程 的 
核心 要 素 。 










































































第 2 章 


辫 数 式 编程 的 特点 











Python 内 置 了 函数 式 编程 的 大 部 分 特性 。 编 写 函 数 式 的 Python 代码 要 求 我 们 尽量 避免 使 用 
命令 式 〈 包 括 过 程式 和 面向 对 象 式 ) 编程 技术 。 


本 章 将 介绍 以 下 函数 式 编程 技术 。 


口 头等 函数 和 高 阶 函 数 ， 也 称 “ 纯 函数 ”。 
口 不 可 变数 据 结构 。 
口 严格 求 值 与 非 严 格 求 值 ， 也 称 “积极 求 值 ”与 “惰性 求 值 ”。 
口 用 递归 代替 显 式 循环 语句 。 
口 困 数 类 型 系统 。 

回顾 一 下 上 一 章 提 到 的 概念 , 首先 ,纯粹 的 函数 式 编程 避免 了 由 于 使 用 变量 赋值 导致 程序 显 
式 维护 计算 状态 而 带 来 的 复杂 性 ; 其 次 ，Python 不 是 纯粹 的 函数 式 语 言 。 

本 书 不 会 给 出 函数 式 编程 的 确切 概念 。 Python 不 是 纯粹 的 函数 式 语言 , 并 且 严 格 的 定义 并 无 
帮助 。 我 们 将 关注 公认 的 重要 函数 式 特 性 ， 不 涉足 有 争议 的 模糊 地 带 。 

本 章 的 示例 代码 将 涉及 Python 3 的 类 型 提示 语法 。 类 型 提示 有 助 于 开发 者 阐述 函数 定义 的 核 
心目 标 ,这 里 使 用 mypy 工具 分 析 类 型 提示 。 与 提供 单元 测试 和 代码 静态 分 析 的 pylint 类 似 , mypy 
也 是 构建 高 质量 软件 工具 链 的 重要 组 成 部 分 。 


2.1 头等 函数 


总 体 而 言 ， 函 数 式 编程 简洁 明了 ， 因 为 函数 可 以 用 作 其 他 函数 的 参数 或 者 返回 值 , 后 续 会 给 
出 很 多 这 样 的 例子 。 

要 做 到 这 一 点 ,函数 必须 是 运行 时 环境 中 的 头等 对 象 。 在 C 等 语言 中 ,函数 不 是 运行 时 中 的 
对 象 ， 然 而 在 Python 中 ， 函 数 通常 是 通过 aef 语句 创建 的 对 象 ， 且 其 他 函数 可 以 使 用 。 我 们 还 
可 以 通过 创建 可 调用 对 象 ， 或 者 将 1ambaqa 表达 式 赋 给 变量 来 创建 函数 。 
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创建 函数 即 创建 一 个 带 有 属性 的 对 象 ， 如 下 所 示 。 


>>> def example(a, b, **kw): 
return a*b 





>>> type (example) 

<class 'function'> 

>>> example._ code .co varnames 
('a', 'b', 'kw') 

>>> example. code .co argcount 
2 


这 里 我 们 创建 了 一 个 对 象 example， 其 为 function 类 。 此 对 象 包含 很 多 属性 ,与 该 函数 
对 象 关 联 的 ”code 对象 也 含有 自己 的 属性 。 其 具体 实现 细节 不 重要 , 重要 的 是 Python 中 的 函 
数 是 头等 对 象 , 我 们 完全 可 以 像 处 理 其 他 对 象 一 样 处 理 函 数 ， 比 如 上 面 的 代码 示例 展示 了 函数 对 
象 的 其 中 两 个 属性 。 
































2.1.1 纯 函 数 


为 了 提高 程序 可 读 性 ， 使 用 的 函数 要 尽量 没有 副作用 ， 即 所 谓 的 “ 纯 函 数 ”。 使 用 纯 函 数 的 
好 处 包括 可 以 通过 改变 求 值 顺序 实现 优化 ， 而 其 最 重要 的 优势 在 于 概念 简单 、 测 试 方便 。 


在 Python 中 ,编写 纯 函数 式 代码 要 求 代码 的 作用 域 为 本 地 ,具体 而 言 , 就 是 避免 使 用 global 
语句 。nonlocal 语句 的 使 用 也 可 能 对 作用 域 产生 副作用 ， 也 应 留意 ,虽然 副作用 限制 在 一 个 髓 
套 函 数 里 。 实 际 上 ， 达 到 这 些 要 求 并 不 难 。 可 以 把 纯 函数 看 作 普 通 的 Python 编程 实践 。 


并 没有 简单 的 方法 能 保证 Python 函数 没有 副作用 ， 编 码 时 不 小 心 违反 了 纯 函 数 规则 也 是 党 
有 之 事 。 如 果实 在 担心 可 能 违反 规则 , 可 以 写 一 个 函数 ,使 用 ais 模块 扫描 给 定 函数 的 _codae_ 
.co_code 属性 ， 即 编译 后 的 代码 ， 检 查 是 否 包含 全 局 引用 。 它 能 对 内 部 闭 包 和 __code__.co 
freevars 元 组 方法 的 使 用 给 出 提示 。 然 而 为 了 避免 极 少 出 现 的 情形 而 运用 这 类 复杂 的 技术 有 些 
得 不 偿 失 ， 因 此 后 续 不 会 展开 讨论 。 


Python 的 1ambqa 表达 式 是 纯 函 数 。 虽 然 不 太 推崇 , 但 确实 可 以 通过 lambda 表达 式 创 建 纯 


将 lambda 表达 式 赋 给 变量 以 创建 函数 的 示例 如 下 。 





















































































































































>>> mersenne = lambda x: 2 ** x -1 
>>> mersenne(17) 
131071 


将 lambqda 表达 式 赋 给 变量 mersenne， 即 可 得 到 一 个 纯 函 数 ， 实 际 上 是 一 个 包含 单一 参数 


x， 并 返回 单个 值 的 可 调用 对 象 。 因 为 1ambda 表达 式 中 不 能 包含 赋值 语句 ， 所 以 它 总 为 纯 函数 ， 
适用 于 函数 式 编程 。 
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2.1.2 ”高 阶 函数 











使 用 高 阶 函数 可 以 使 程序 简洁 明了 。 高 阶 函 数 以 其 他 函数 为 参数 ， 或 者 用 函数 作为 返回 值 。 
我 们 可 以 使 用 高 阶 函 数 将 简单 的 函数 组 合成 复合 函数 。 
以 Python 的 max () 函数 为 例 , 我 们 可 以 提供 一 个 函数 作为 其 参数 , 来 改变 max () 函数 的 行为 。 
待 处 理 的 数据 如 下 。 


>>> year_ cheese = [(2000, 29.87), (2001, 30.12), (2002, 30.6), (2003, 
30.66), (2004, 31.33), (2005, 32.62), (2006, 32.73), (2007, 33.5), 
(2008, 32.84), (2009, 33.02), (2010, 32.92)] 


可 以 如 下 所 示 使 用 max () 函数 。 


>>> max (year cheese) 
(2010, 32.92) 














其 默认 行为 会 比较 列表 中 的 每 个 元 组 , 按 元 组 下 标 为 0 的 元 素 比较 大 小 , 返回 最 大 的 元 素 所 
在 的 元 组 。 





由 于 max () 函数 是 高 阶 函数 , 因此 可 以 添加 一 个 函数 作为 其 参数 。 这 里 用 一 个 1ambga 表达 
式 作 为 它 的 函数 参数 ， 如 下 所 示 。 


>>> max (year_ cheese, key=lambda yc: yc[1]) 
(2007, 33.5) 


在 这 个 例子 中 ，max () 函数 用 1ambda 表达 式 定义 的 函数 作为 比较 依据 ， 返 回 了 下 标 为 1 的 
最 大 元 素 所 在 的 元 组 。 





Python 提供 了 许多 高 阶 函数 ， 后面 ( 主要 是 第 5 章 ) 会 介绍 Python 提供 的 许多 高 阶 函 数 以 
及 编写 高 阶 函 数 的 方法 。 


2.2 不 可 变数 据 结构 


函数 式 编程 中 不 能 使 用 变量 跟踪 计算 的 状态 , 所 以 我 们 需要 研究 如 何 使 用 不 可 变 对 象 , 比如 
可 以 使 用 元 组 和 命名 元 组 构建 复杂 的 不 可 变数 据 结构 。 


不 可 变 对 象 的 概念 在 Python 中 并 不 陌生 。 程 序 使 用 不 可 变 元 组 比 使 用 可 变 对 象 的 性 能 要 好 。 
在 某 些 情况 下 ， 使 用 不 可 变 对 象 时 ， 我 们 需要 重新 考虑 算法 ， 以 避免 改变 对 象 所 带 来 的 开销 。 


我 们 将 ( 几乎 ) 完全 避免 使 用 类 定义 , 虽然 在 一 门面 向 对 象 编程 的 语言 里 这 么 做 似乎 不 合 逻 
辑 。 通 过 阅读 本 书 你 会 了 解 ， 函 数 式 编程 并 不 需要 有 状态 的 对 象 。 可 以 定义 可 调用 对 象 ， 并 通过 
它们 把 互相 关联 的 函数 放 在 同一 个 命名 空间 内 , 这 类 对 象 可 以 在 多 个 级 别 上 进行 配置 。 通过 可 调 
用 对 象 创建 缓存 也 很 简单 ， 而 且 能 大 幅 提 升 性 能 。 
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下 面 介 绍 一 个 处 理 不 可 变 对 象 的 常用 设计 模式 : wrapper () 水 数 。 由 元 组 组 成 的 列表 是 常见 
的 数据 结构 ， 我 们 经 常用 以 下 两 种 方式 处 理 它们 。 
口 使 用 高 阶 函 数 : 如 前 所 述 ， 为 max () 提供 一 个 lambda 表达 式 一 max (year_cheese,， 
key=lambda yc: yc[1])。 
口 使 用 “打包 -处 理 - 拆 包 ”模式 : 在 函数 式 语 境 中 ， 这 种 模式 可 以 表述 为 unwrap (process 
(wrap (structure)))。 
例如 ， 看 看 以 下 命令 片断 。 


>>> max (map (lambda yc: (yc[1]，yc)，year_cheese)) [11] 
(2007, 33.5) 
































这 个 例子 很 好 地 展示 了 上 面 说 的 三 部 曲 模式 : 打包 数据 结构 ,获取 打包 后 数据 结构 的 最 大 值 ， 
然后 拆 包 。 


首先 是 打包 。 map(lambda yc: (yc[1],yc), year_cheese) 把 列表 中 的 每 一 项 转换 成 
一 个 二 元 组 ， 其 中 用 于 比较 的 项 后 面 跟着 原始 项 ， 这 里 用 于 比较 的 项 是 yc[1]。 


接 下 来 用 max () 函数 处 理 逻 辑 。 因 为 之 前 已 经 把 需要 比较 的 项 变 成 了 二 元 组 的 第 一 个 元 素 ， 
所 以 使 用 max() 的 默认 方式 就 可 以 了 ， 不 再 需要 它 的 高 阶 函 数 能 力 。 


最 后 用 下 标 [1] 提 取 最 终结 果 ， 即 拆 包 。 这 里 是 从 max() 返 回 的 结果 中 通过 取 第 二 个 元 素 得 
到 目标 元 组 。 


这 类 打包 、 拆 包 的 操作 在 函数 式 编程 中 很 常用 , 所 以 有 些 函 数 式 语言 为 这 类 操作 提供 了 专门 
的 函数 ， 例 如 fst() 和 snd() 等 ， 这 样 就 可 以 使 用 前 绥 式 语法 ， 而 不 必 使 用 [0] 或 [1] 这 样 的 下 
标 了 。 我 们 可 以 实现 这 些 函 数 ， 并 将 其 应 用 于 “打包 -处理 - 拆 包 ”模式 中 ， 如 下 所 示 。 

>>> snd = lambda x: x[1] 

>>> snd(max(map(lambda yc: (yc[1], yc), year_ cheese))) 

(2007, 33.5) 

上 例 中 , 通过 定义 snd () 函数 实现 取 元 组 第 二 个 元 素 的 功能 ,这样 实现 的 “打包 -处 理 - 拆 
包 ” 模 式 更 易 读 。 我 们 使 用 map (1ambda. .. ，year_cheese) 打 包 原 始 数 据 项 ,使 用 max () 
进行 处 理 ， 最 后 用 sna () 函数 从 返回 的 元 组 中 提取 第 二 个 元 素 。 


第 13 章 将 介绍 上 述 基 于 1ambda 表达 式 的 fst () 函数 和 sna () 函数 的 替代 解决 方案 。 































































































2.3 严格 求 值 与 非 严格 求 值 


函数 式 编程 高 效 ， 原 因 之 一 是 将 计算 推迟 到 需要 的 时 候 进行 。 惰 性 〈 也 称 “ 非 严格 ”) 求 值 
非常 重要 ，Python 内 置 了 对 它 的 支持 。 
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Python 中 ， 逻 辑 运 算 符 anda、or 和 if-then-else 都 是 非 严 格 的 。 有 时 也 称 之 为 “短路 ” 
运算 符 ， 因 为 它们 不 需要 计算 全 部 参数 就 能 得 到 最 终结 果 。 


以 下 命令 片断 展示 了 ang 运算 符 的 惰性 求 值 特性 。 


>>> 0 and print ("right") 

0 

>>> True and print ("right") 
right 








执行 上 面 的 代码 时 ， 如 果 ang 运算 符 左 边 的 表达 式 值 为 False, 不 会 对 右边 的 表达 式 求 值 ; 
只 有 当 左 边 的 表达 式 值 为 True 时 ， 才 会 对 右边 的 表达 式 求 值 。 


除 此 之 外 , Python 使 用 严格 求 值 规则 。 除了 逻辑 运算 符 , 表达 式 都 是 严格 地 从 左 向 右 求 值 的 。 
一 组 语句 也 是 严格 按 顺 序 求 值 的 ， 列 表 字 面 量 和 元 组 亦 然 。 


当 创建 一 个 类 时 ,， 它 的 各 个 方法 是 严格 按 顺 序 定义 的 。 在 类 的 定义 中 , 所 有 方法 在 创建 之 后 
( 默认 ) 被 放 入 一 个 字典 ， 并 不 会 保持 之 前 的 顺序 。 如 果 在 一 个 类 中 创建 两 个 名 字 相 同 的 方法 ， 
那么 由 于 严格 的 求 值 顺序 ， 只 会 保留 后 面 的 方法 ， 前 面 定义 的 方法 会 被 覆盖 掉 。 


Python 的 生成 器 表达 式 和 生成 器 函数 是 惰性 的 , 在 求 值 时 , 这 些 表达 式 不 会 马上 计算 出 所 有 
的 可 能 结果 。 如 果 不 把 计算 过 程 显 式 打印 出 来 ,很 难看 到 惰性 求 值 的 结果 。 下 面 的 例子 演示 了 通 
过 引入 带 有 副作用 的 *ange () 函数 生成 值 的 过 程 。 
def numbers () : 
for i in range(1024) : 
Brint(f"s {ti}") 
yield i 








eh 











每 生成 一 个 值 ， 该 函数 就 将 其 打印 出 来 ， 以 此 给 出 调试 提示 。 如 果 这 个 函数 是 严格 求 值 的 ， 
将 会 打印 出 所 有 1024 个 值 ,但 由 于 它 是 惰性 的 ， 所 以 只 会 按 需 生成 值 。 


Python 2 的 range () 函数 是 严格 求 值 的 ,创建 后 就 会 生成 所 有 包含 的 值 。Python 
3 的 zange() 函 数 是 惰性 求 值 的 ， 不 会 创建 大 型 数据 结构 。 








可 以 用 惰性 求 值 的 方式 使 用 这 个 带 日 志 功 能 的 numbers () 函数 。 下 面 编写 一 个 只 求 部 分 值 
( 而 非 全 部 ) 的 函数 。 


def sum to(ln: int) -> int: 
Suills me 
for i in numbers(): 
if i == n: break 
sum += i 
return sum 








sum_to() 函数 的 类 型 提示 表明 它 接 收 整 型 值 作为 参数 ， 并 返回 整 型 值 。sum 变量 也 使 用 了 
Python 3 语法 : :int， 表 明 它 是 一 个 整 型 值 。sum_to () 函数 不 对 numbers () 函数 取 所 有 值 ， 在 
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取 了 前 几 个 值 后 ， 就 通过 break 语句 退出 了 。 下 面 的 日 志 展 示 了 numbers () 创建 值 的 方式 。 


>>> sum to(5) 
0 


RODPp 


Pl 


© 








后 面 会 讲 到 ，Python 生成 器 函数 的 一 些 特 点 使 得 它 在 应 用 于 简单 函数 时 会 出 现 一 些小 膝 烦 ， 
例如 一 个 生成 器 只 能 用 一 次 ， 因 此 在 使 用 Python 的 惰性 生成 器 表达 式 时 要 小 心 。 














2.4 用 递归 代替 循环 语句 


函数 式 编程 不 依赖 循环 语句 ， 也 不 产生 跟踪 循环 状态 的 开销 ， 而 使 用 相对 简单 的 递归 语句 。 
在 一 些 语言 中 , 代码 中 的 递归 会 在 编译 阶段 被 编译 髓 通过 尾 调 用 优化 (tail call optimization, TCO ) 
技术 转换 成 循环 语句 。 本 节 简 单 介绍 一 些 递归 用 法 ,第 6 章 会 详细 讲解 递归 技术 。 

接 下 来 介绍 如 何 通 过 遍历 测试 一 个 数 是 否 为 质数 。 质数 是 只 能 被 1 和 本 身 整 除 的 自然 数 。 我 
们 可 以 定义 一 个 简单 的 低 性 能 算法 , 检查 2 到 这 个 数 之 间 的 所 有 自然 数 能 否 整除 它 。 该 算法 的 优 
点 是 简单 ,可 以 作为 欧 拉 计划 中 问题 的 解法 。 如 果 你 对 求解 该 问题 的 高 性 能 算法 感 兴趣 ， 可 以 参 
考 米 勒 - 拉 宾 素性 检验 算法 。 

我 们 使 用 “ 互 质 ” 表 示 两 个 数 除了 1 之 外 没有 其 他 公约 数 ， 比 如 2 和 3 是 互 质 的 , 而 6 和 9 
不 是 互 质 的 ， 因 为 它们 除了 1 之 外 ， 还 有 公约 数 3。 

这 样 就 可 以 把 测试 一 个 数 是 否 为 质数 ,转换 为 下 面 这 个 问题 : 自然 数 n 是 否 与 自然 数 p 的 任 
意 取 值 互 质 ， 其 中 p* <n ,或 者 简化 成 : n 是 否 与 所 有 满足 条 件 2 < 六 <n 的 数 p 互 质 ? 

不 妨 把 上 面 的 陈述 转换 为 如 下 数学 公式 。 












































区 


























prime(n)= Vx[(2 x<1+ Vn) 人 和 人 (n mod x) 0)] 


对 应 的 Python 表达 式 如 下 。 

not any(n $ p == 0 for p in range(2,int(math.scrt(n)) + 1)) 

从 数学 公式 转换 而 来 的 更 准确 的 写法 是 alltn sp != 0 ... ), 但 它 需 要 对 所 有 pp 的 可 
能 取 值 严格 求 值 ， 而 上 面 的 not any 版 本 会 在 碰 到 第 一 个 True 值 的 时 候 结束 计算 。 

这 个 简单 的 表达 式 中 包含 一 个 for 循环 ,， 所 以 不 是 纯粹 的 、 无 状态 的 函数 式 编程 风格 。 我 们 
可 以 把 它 转换 成 处 理 一 个 集合 的 函数 : 自然 数 n 是 否 与 [2,1+ Vn) 内 的 所 有 数 互 质 ? 其 中 符号 [) 
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代表 半 开 区 间 : 下 限 在 范围 内 ， 上 限 不 在 范围 内 ， 与 Python 函数 range () 的 取 值 方式 一 致 。 由 
于 我 们 只 在 自然 数 范围 内 讨论 问题 ， 所 以 平方 根 的 值 会 自动 转换 为 整数 。 


此 可 以 如 下 定义 测试 质数 的 公式 。 





prime(n) = —coprime(n,[2,1+ Vn)) n>1 


基于 一 组 数值 定义 函数 时 ,集合 为 空 是 基础 形式 , 递归 将 非 空 集合 处 理 为 : 对 集合 中 一 个 数 
的 处 理 结果 加 上 对 剩余 数值 集合 的 处 理 结 果 ， 类 似 于 下 面 的 公式 。 








ne True a=b 
rime(n,[a, Db)) = l 
Pe n mod az0Acoprime(n,[a+1,b)) a<b 








该 公式 通过 判断 以 下 两 种 情况 给 出 测试 结 采 。 


口 当 范围 为 空 时 ，a = 2， 对 类 似 于 coprime(131071, [363, 363)) 的 表达 式 求 值 。 由 于 范围 内 
不 含 可 用 取 值 ， 所 以 返回 True。 
口 当 范 围 非 空 时 ， 对 类 似 于 coprime(131071, [2,363)) 的 表达 式 求 值 。 在 这 种 情况 下 ， 表 达 式 
会 分 解 为 (131071 mod 2)z# 0 ^ coprime(131071, [3,363))， 其 中 第 一 部 分 的 返回 值 为 True， 
所 以 需要 递归 对 第 二 部 分 求 值 。 


作为 练习 , 读者 可 以 尝试 将 上 面 的 递归 算法 由 向 上 缩减 范围 改 为 向 下 缩减 范围 , 即 在 递归 形 
式 中 用 [a，pb-1) 代 替 [a+r1，Pb)。 


也 许 有 人 认为 空 区 间 应 该 是 a>?p 而 非 a = b， 其 实 是 不 必要 的 。 由 于 a 每 次 增加 1， 可 以 保 
证 a<p 始终 成 立 ， 并 不 会 因 某 种 差错 导致 a 越过 b。 所 以 无 须 为 空 区 间 设 置 过 多 限制 条 件 。 


实现 前 面 定义 的 质数 的 Python 代码 如 下 。 


def isprimer(n: int) -> bool: 
def isprime(k: int, coprime: int) -> bool: 
"""Is k relatively prime to the Value coprime?""" 
if k < coprime*coprime: return True 
if k $ coprime == 0: return False 
return isprime(k, coprime+2) 
if n < 2: return False 



























































LE 2 Feturn TrUS 
if n %$ 2 == 0: return False 
return isprime(n, 3) 


上 面 的 代码 使 用 了 递归 定义 的 函数 isprimer () ， 接 收 类 型 为 整数 的 参数 n， 返 回 布尔 值 。 


半 开 区 间 (2,1+ Vn) 的 下 限 参数 a 改名 为 coprime 以 更 好 地 表达 其 作用 : 通过 改变 它 来 缩小 
测试 范围 。 这 里 的 基础 形式 是 n < coprime * coprime, 此 时 可 以 保证 从 coprime 到 1 + 
math.saqrt (n) 为 空 。 
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其 中 将 非 严 格 的 and 操作 替换 成 一 条 单独 的 if 测试 语句 : if n sg coprime == 0。 最 后 
的 return 语句 使 用 新 的 coprime 参数 对 函数 进行 递归 调用 。 


由 于 递归 发 生 在 函数 尾部 ， 所 以 这 是 一 个 尾 递 归 的 例子 。 


函数 中 增加 了 对 待 测试 自然 数 的 限制 条 件 : 大 于 2 的 奇数 。 由 于 2 是 唯一 的 偶 质 数 ， 所 以 大 
于 2 的 偶数 显然 不 是 质数 ， 无 须 测试 。 


这 个 示例 的 重点 是 递归 函数 中 的 两 种 情况 都 很 简单 , 用 待 测试 值 作为 内 部 isprime () 函数 的 
参数 ， 可 以 让 我 们 在 递归 调用 函数 时 ， 通 过 改变 参数 值 来 确保 取 值 范围 不 断 缩 小 。 


虽然 这 样 的 算法 通常 简洁 明了 ， 但 在 Python 中 使 用 这 样 的 算法 要 注意 下 面 两 个 问题 。 


口 Python 对 授 套 递归 的 深度 有 限制 ， 不 能 随意 定义 基础 形式 。 
口 Python 的 编译 需 没 有 尾 递归 功能 。 


递归 深度 上 限 默 认为 1000, 对 于 多 数 算法 来 说 足够 了 。 也 可 通过 sys .setrecursionlimit () 
函数 修改 这 个 值 ,但 不 建议 把 它 改 得 过 大 ,否则 算法 使 用 的 内 存 会 超过 操作 系统 的 物理 内 存 , 进 
而 导致 Python 解释 器 月 演 。 


当 用 isprime () 函数 测试 大 于 1 000 000 的 数 时 就 会 超过 递归 上 限 。 即 使 我 们 优化 算法 ， 用 
它 只 测试 质数 ， 而 非 所 有 自然 数 ， 这 个 算法 仍然 只 能 测试 第 1000 个 质数 ( 即 7919 ) 的 平方 ( 即 
62 710 561 ) 以 下 的 自然 数 。 

有 些 函 数 式 语言 可 以 优化 类 似 于 isprime () 这样 的 浮 数 ,把 ijsprimer (n，coprime+1) 这 
样 的 递归 调用 转换 为 低 开 销 循环 语句 。 但 这 种 优化 往往 会 弄 乱 调用 栈 ， 难 以 调试 优化 过 的 程序 。 
Python 不 进行 此 类 优化 , 而 为 了 保证 清晰 与 简洁 ,牺牲 了 性 能 和 内 存 使 用 , 这 也 意味 着 我 们 必须 
手动 进行 优化 。 

在 Python 中 ， 如 果 用 生成 器 表达 式 代 替 递 归 函 数 ， 实 际 效果 相当 于 手动 进行 了 尾 调用 优化 ， 
从 而 不 必 依 赖 其 他 函数 式 语 言 中 编译 器 的 优化 能 


使 用 生成 器 表达 式 完 成 尾 调用 优化 的 代码 示例 如 下 。 


def isprimei(n: int) -> bool: 
有 号 WE 










































































































































































>>> isprimei(2) 

True 

>>> tuple( isprimei(x) for x in range(3,11) ) 

(True, False, True, False, True, False, False, False) 
ma 


1 
return False 
TE 
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return True 

i 下 "多 > 2. 三 二 
return False 

for i in range(3, 1l+int (math.sqrt (n)), 2): 
i 三 三 05 





return False 
return True 


该 函数 满足 函数 式 编程 的 许多 要 求 ， 但 用 生成 器 表达 式 取 代 了 单纯 的 递归 调用 。 





ED 在 生成 器 表达 式 中 常用 for 循环 优化 递归 函数 。 


对 于 大 的 质数 ,上 面 的 算法 速度 不 算 快 , 但 对 于 合 数 , 往往 能 很 快 给 出 结果 。 以 M。 = 2 -1 
为 例 ， 上 述 算法 需要 花费 数 分 钟 才 能 确定 它 是 质数 ， 毕 竟 整 个 过 程 测试 了 1 518 500 249 个 可 能 
的 因子 。 














2.5 函数 类 型 系统 


有 些 函 数 式 语言 ( 比如 Haskell 和 Scala ) 是 静态 编译 的 ， 通 过 类 型 声明 确定 函数 及 其 参数 
的 类 型 。 为 了 具备 Python 式 的 灵活 性 ， 这 些 语 言 发 展 出 了 各 自 的 类 型 匹配 规则 ， 从 而 能 编写 针 
对 相近 的 一 组 类 的 抽象 函数 。 


在 面向 对 象 的 Python 中 ， 常 用 类 继承 代替 复杂 的 函数 类 型 匹配 ， 利 用 Python 的 命名 匹配 规 
则 将 运算 符 与 正确 的 方法 关联 。 


由 于 Python 语言 非常 灵活 ， 并 不 需要 编译 式 函数 语言 的 类 型 匹配 规则 ， 甚 至 可 以 说 ， 复 杂 
的 类 型 匹配 规则 不 过 是 静态 编译 语言 为 了 能 编写 抽象 函数 而 采取 的 变通 方法 。Python 是 动态 语 
言 ， 不 需要 采用 这 种 变通 方法 。 


Python 3 引入 了 类 型 提示 功能 ， 可 以 使 用 mypy 等 工具 通过 分 析 类 型 匹配 发 现 潜在 的 问题 。 
使 用 类 型 提示 比 通过 类 型 测试 ( 即 assert isinstance (a，int) ) 检查 参数 a 的 类 型 是 否 为 
整 型 值 更 好 ， 因 为 assert 语句 增加 了 运行 时 的 资源 开销 ， 而 运行 mypy 验证 提示 是 常规 质量 保 
证 环节 的 一 部 分 ， 通 常 与 单元 测试 工具 pylint 等 配合 使 用 ， 以 保证 软件 的 正确 性 
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2.6 回 到 最 初 


文 行 至 此 ， 不 难 发 现 Python 具备 了 函数 式 编程 的 绝 大 多 数 特 征 。 实 际 上 ， 这 些 函 数 式 编程 
技术 甚至 已 经 广泛 应 用 于 面向 对 象 编程 中 了 。 


作为 特例 ， 流 畅 的 应 用 编程 接口 (API ) 很 好 体现 了 函数 式 编程 的 特质 。 在 一 个 类 中 ， 只 要 
花 点 时 间 在 它 的 每 个 方法 后 面 都 加 上 return self ()， 就 可 以 编写 出 如 下 所 示 的 代码 : 
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some_object.foo() .bar() .yet_more() 
或 者 把 紧密 相关 的 几 个 函数 写成 下 面 的 形式 : 

yet_more (bar (foo (some_object))) 
也 就 是 把 传统 面向 对 象 风 格 的 后 级 式 语法 改 为 偏 函 数 式 的 前 级 式 语法 。 两 种 写法 均 可 用 于 Python， 
不 过 对 于 有 特殊 意义 的 方法 ,主要 用 前 级 形式 , 例如 len () 函数 实际 上 是 通过 class._ len __() 
方法 实现 的 。 

当然 ,前面 这 些 类 的 实现 仍然 可 能 包含 有 状态 的 对 象 , 但 即便 如 此 , 视角 的 微小 改变 也 有 助 
于 我 们 在 编程 实践 中 灵活 运用 函数 式 方法 ， 编 写 出 简洁 明了 的 程序 代码 。 
再 次 强调 , 使 用 函数 式 编程 并 不 意味 着 命令 式 编程 存在 某 些 严重 缺陷 , 或 者 函数 式 编程 能 提 
供 高 新 技术 。 苑 数 式 编程 的 精髓 在 于 改变 视角 ， 这 种 改变 往往 有 助 于 更 好 地 编码 。 





































































































2.7 ” 几 个 高 级 概念 


本 书 之 后 会 讨论 函数 式 编程 的 一 些 相关 高 级 概念 , 这 些 概 念 在 纯粹 的 函数 式 语言 中 是 不 可 或 
缺 的 。 由 于 Python 并 非 纯 函 数 式 语言 ， 而 是 一 种 混合 式 函 数 编程 方法 ， 所 以 不 需要 深入 研究 这 
些 概念 。 


























这 部 分 讨论 对 那些 熟悉 函数 式 语言 ( 例如 Haskell ) 的 Python 初学 者 特别 有 用 ， 因 为 Python 
处 理 这 些 问题 的 方式 与 其 他 语言 不 同 。 很 多 时 候 , 我 们 会 采用 命令 式 编程 的 方法 解决 问题 ， 而 不 
局 限于 函数 式 方法 。 


这 些 概 念 如 下 所 示 。 


口 引用 透明 性 : 在 编译 语言 中 ， 为 了 保证 惰性 求 值 和 多 种 优化 方法 的 正确 性 ， 需 要 确保 通 
向 同一 对 象 有 多 条 路 径 。 在 Python 中 ， 这 一 点 并 不 是 特别 重要 ， 因 为 Python 没有 编译 阶 
段 优化 。 

口 柯 里 化 : 类 型 系统 通过 柯 里 化 技术 把 多 参数 函数 转化 为 单 参数 函数 ， 第 11 章 将 深入 讨论 

这 个 问题 。 

口 Monad: 将 一 系列 操作 灵活 串联 起 来 ， 构 成 一 个 纯 函 数 。 在 某 些 场 景 中 ， 可 使 用 命令 式 
Python 代码 达到 相同 的 效果 。 也 可 以 借助 Python 库 PyMonag 构造 Monad， 第 14 章 将 深 
入 讨论 这 个 问题 。 





















































2.8 小 结 


本 章 阐 述 了 函数 式 编程 范式 的 几 个 核心 特征 。 首 先 介绍 了 头等 对 象 和 高 阶 函 数 ,其 关键 在 于 
函数 可 以 使 用 其 他 函数 作为 参数 ,或 者 返回 另 一 个 函数 。 当 函数 变 成 其 他 编程 的 “对 象 ” 时 ， 就 
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可 以 编写 出 既 灵 活 又 具备 抽象 能 力 的 算法 了 。 


在 Python 等 面向 对 象 的 语言 中 ， 不 可 变数 据 结构 似乎 有 些 另类 ， 但 当 我 们 从 函数 式 编程 的 
角度 思考 时 ,就 会 发 现状 态 变 化 是 许多 令 人 困惑 的 问题 的 根源 。 使 用 不 可 变数 据 结构 有 助 于 我 们 
拨 云 见 日 ， 直 抵 问 题 的 核心 。 


Python 使 用 严格 求 值 策略 : 按照 从 左 向 右 的 顺序 对 语句 中 的 表达 式 求 值 。 但 在 处 理 逻 辑 运 算 
符 ， 比如 or、and 和 if-else 时 ，Python 又 是 非 严 格 的 ,依据 已 知 部 分 的 值 确定 是 否 对 未 知 部 
分 求 值 。 同样, 生成 器 函数 也 不 是 严格 求 值 的 。 这 两 种 求 值 策略 也 称 “ 积 极 求 值 ” 和 “惰性 求 值 ”。 
总 体 而 言 ，Python 使 用 积极 求 值 策略 ， 但 可 以 通过 生成 器 函数 实现 惰性 求 值 。 

函数 式 语言 通常 使 用 递归 代替 循环 语句 ， 但 Python 对 此 有 一 些 限制 。 由 于 调用 栈 长 度 的 限 
制 ， 以 及 缺乏 优化 编译 器 ， 我 们 需要 手动 优化 递归 函数 ， 第 6 章 会 详细 讨论 该 话题 。 

大 多 数 函 数 式 语 言 都 有 各 自 复杂 的 类 型 系统 ， 但 我 们 使 用 Python 的 动态 类 型 系统 。 虽 然 有 
时 候 这 意味 着 必须 手动 转换 类 型 ， 或 者 创建 专门 的 类 来 应 对 复杂 情形 ， 但 绝 大 多 数 时 候 ， 利 用 
Python 现 有 的 规则 就 可 以 很 好 地 解决 问题 。 

下 一 章 将 介绍 纯 函 数 的 一 些 核心 概念 ， 以 及 如 何 使 用 Python 的 内 置 数据 结构 实现 这 些 概念 。 
在 此 基础 上 ， 会 介绍 Python 提供 的 高 阶 函数 ， 以 及 自 定义 高 阶 函数 的 方法 。 






















































































另 数 、 和 迭代 顺和 生成 怖 








函数 式 编程 的 核心 是 使 用 纯 函 数 将 定义 域 中 的 值 映射 到 值 域 。 纯 函数 没有 副作用 , 在 Python 
中 易于 实现 。 


避免 副作用 意味 着 减少 对 通过 变量 赋值 维护 计算 状态 的 依赖 。 我 们 不 可 能 将 赋值 语句 从 
Python 中 剔除 ， 但 可 以 减少 对 有 状态 对 象 的 依赖 ， 即 需要 从 Python 的 内 置 数据 结构 中 选择 那些 
不 依赖 状态 操作 的 数据 类 型 。 


本 章 将 从 函数 视角 介绍 Python 的 如 下 特性 。 


口 无 副作用 的 纯 函 数 。 

口 函数 充当 对 象 ， 用 作 参 数 或 者 返回 值 。 

口 以 面向 对 象 的 后 级 方式 和 前 级 方式 使 用 Python 字符 串 。 
口 使 用 元 组 和 命名 元 组 创建 无 状态 对 象 。 

口 将 可 迭代 集合 作为 函数 式 编程 的 首选 设计 工具 。 


生成 器 和 生成 器 表达 式 是 处 理 集 合 对 象 的 重要 工具 , 本章 将 详细 介绍 它们 。 第 2 章 提 到 使 用 
递归 完全 代替 生成 器 表达 式 会 有 一 些 问 题 ， 包 括 佬 套 递归 深度 限制 ， 以 及 Python 不 会 自动 进行 
尾 调用 优化 ， 所 以 需要 使 用 生成 器 表达 式 来 手动 优化 递归 。 

我 们 将 使 用 生成 器 表达 式 完 成 如 下 工作 : 

口 转换 
口 重 构 
口 进行 复杂 计算 

本 章 将 探讨 Python 的 内 置 集合 类 型 ， 以 及 在 函数 式 范式 下 使 用 这 些 集合 的 方法 ,或 许 这 将 
改变 我 们 使 用 列表 、 字 典 和 集合 的 方法 。 在 函数 式 编程 中 ， 我 们 将 侧重 于 使 用 Python 的 元 组 和 
其 他 不 可 变 集 合 类 型 。 下 一 章 将 详细 介绍 如 何以 函数 式 的 方法 使 用 特殊 集合 。 















































3.1 编写 纯 函 数 


没有 副作用 的 函数 符合 在 数学 中 函数 的 纯粹 定义 : 变量 不 会 在 全 局 范围 内 发 生变 化 , 避免 使 
用 global 请 句 基 本 可 以 达到 要 求 。 为 了 达到 纯粹 ， 则 要 求 避免 函数 改变 可 变 对 象 的 状态 。 


下 面 是 一 个 纯 函数 的 例子 : 


def m(n: int) -> int: 
A or 0 WO 


返回 结果 仅 与 参数 n 的 值 有 关 ， 既 没有 改变 全 局 变量 ， 也 没有 更 新 任何 可 变数 据 结 构 。 


任何 (通过 自由 变量 ) 对 Python 全 局 命名 空间 中 值 的 引用 都 可 以 用 参数 实现 ， 通 常 这 类 操 
作 都 很 简单 。 下 面 是 一 个 使 用 自由 变量 的 例子 : 


def some_function(a: float, b: float, t: float) -> float: 
return a +b*t + global adjustment 
可 以 将 上 面 的 global_adjustment 变量 变 为 函数 的 参数 ， 然 后 修改 所 有 使 用 这 个 函数 的 
地 方 。 在 一 个 复杂 应 用 中 , 这么 做 会 引发 一 系列 变动 。 对 全 局 变量 的 引用 在 函数 体 中 表现 为 自由 


NE 三 次 
变量 。 


Python 的 许多 内 置 对 象 都 带 有 状态 , 例如 文件 类 以 及 与 文件 相关 的 对 象 , 都 是 常用 的 有 状态 
对 象 。 可 以 把 Python 中 的 大 多 数 有 状态 对 象 看 作 上 下 文 管理 器 ， 虽 然 很 多 开发 者 不 使 用 上 下 文 
管理 器 , 但 实际 上 很 多 对 象 都 实现 了 它 要 求 的 接口 。 少 数 有 状态 对 象 没 有 完全 实现 上 下 文 管理 器 
的 接口 , 但 往往 实现 了 close () 方 法 。 可 以 通过 contextlib.closing() 国 数 为 这 些 对 象 实现 
对 应 的 上 下 文 管理 接口 。 

除非 是 小 程序 ， 否 则 我 们 难以 去 除 所 有 的 Python 有 状态 对 象 。 因 此 ， 必 须 在 发 挥 函数 式 优 
势 与 管理 状态 中 间 寻 找平 衡 。 为 了 达到 目标 ,应 尽量 用 with 语句 将 有 状态 对 象 严格 限制 在 一 定 
的 作用 域内 。 



























































& 尽 可 能 把 文件 对 象 放 在 with 语句 中 。 




















尽量 避免 使 用 全 局 文件 对 象 和 全 局 数据 库 连 接 , 以 避免 相关 状态 问题 。 全 局 文件 对 象 是 处 理 
文件 的 常规 方式 ， 例 如 下 面 的 命令 片断 所 示 的 函数 : 
def open(iname: str, oname: str): 
global ifile, ofile 
ifile 
ofile 


在 这 个 场景 中 ， 其 他 函数 可 以 随意 使 用 ifile 变量 和 ofile 变量 ， 而 这 两 个 变量 不 仅 是 全 


open (iname, "r") 
open (oname, "w") 
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局 的 ， 还 始终 保持 打开 的 状态 。 








这 样 的 设计 不 符合 函数 式 编程 的 要 求 , 应 尽量 避免 。 文 件 应 作为 函数 的 参数 ,打开 的 文件 应 
正确 处 理 其 状态 。 将 全 局 变量 改 为 普通 参数 非常 重要 ， 会 使 文件 操 


磐 在 with 语句 中 ， 以 确保 
作 更 易 辨 识 。 





该 原则 也 适用 于 数据 库 ， 


























应 把 数据 库 连 接 对 象 作 为 应 用 程序 中 函数 的 普通 参数 。 有 些 


























bE 流 行 的 


Web 框架 把 数据 库 连 接 设计 成 全 局 的 , 使 得 整个 应 用 程序 都 可 以 使 用 数据 库 的 某 些 功 能 。 这 种 透 























3.2 ”函数 作为 头等 对 象 


之 前 讲 过 Python 函数 是 头等 对 象 , 也 是 包含 一 些 属性 的 普通 对 象 。 关 于 函数 对 象 可 用 的 特殊 
方法 ， 可 以 参阅 Python 语言 参考 手册 。 与 绪 取 对 象 属性 的 方法 相同 , 通过 ”qdoc 和 


























实现 这 类 自省 机 制 相对 复杂 ， 











明 性 隐藏 了 Web 操作 对 数据 库 的 依赖 ， 使 得 单元 测试 变 得 非常 复杂 。 但 单一 的 全 局 数据 库 连 接 
并 不 能 很 好 地 支持 多 线程 Web 服务 ,使 用 连接 池 往 往 更 好 。 这 也 说 明了 总 体 使 用 函数 式 设计 ， 
辅 以 一 些 严 格 限 制 的 状态 对 象 ， 是 处 理 这 种 情况 的 理想 解决 方案 。 





name 





属性 可 以 获得 函数 的 docstring 和 名 称 , 还 可 以 通过 ”code ”属性 获得 函数 体 , 在 编译 
因为 要 考虑 如 何 保留 源 代码 信息 ， 但 对 于 Python 来 说 这 很 人 








五 言 
JEr 百 


简单 。 


函数 可 以 赋 给 变量 ,可 以 作为 参数 传递 , 还 可 以 作为 其 他 函数 的 返回 值 。 运 用 这 些 技术 可 以 











轻松 编写 高 阶 函 数 。 


























由 于 函数 已 经 是 对 象 了 ， 
的 对 象 , 可 以 通过 可 调用 对 象 创建 函数 ， 

















所 以 Python 具备 函数 式 语言 的 许多 要 素 。 另 外 ， 由 于 函数 是 普通 
其 至 可 以 将 可 调用 类 视 为 高 阶 函数 。 在 定义 可 调用 对 象 





















































的 _init__() 方 法 时 要 尽量 避免 在 其 中 设置 有 状态 的 类 变量 。 通 常 的 做 法 是 利用 策略 模式 定义 


_ init __() 方 法 。 


一 个 按照 策略 模式 创建 的 类 使 用 男 一 个 对 象 为 其 提供 算法 , 或 者 部 分 提供 算法 , 这样 就 可 以 
在 运行 时 动态 注入 算法 ， 而 不 必 将 具体 逻辑 固定 在 类 内 部 。 


在 可 调用 对 象 中 上 脱 入 策略 对 象 的 示例 如 下 : 


from typing import Callable 





class Mersennel: 





def __init_ _(self, algorithm: Callable[[int], int]) -> None: 
self.pow2 = algorithm 

def _ call__(self, arg: int) ->int: 
return self.pow2(arg) - 1 


() 方 法 将 另 一 个 函数 algorithm 的 引用 保存 在 self .pow2 中 。 上 面 





这 个 类 使 用 _ init 
没有 创建 任何 有 状态 的 变量 


Callable[ [int], int] 








self .pow2 不 应 发 生变 化 。 这 里 参数 algorithm 的 类 
， 表 示 该 函数 的 输入 和 输出 部 是 整 型 值 。 


型 标示 是 
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这 个 函数 根据 策略 对 象 提供 的 算法 计算 2 的 给 定 次 方 , 可 以 作为 类 构造 参数 的 3 个 备 选 算 法 
如 下 所 示 : 


def shifty(b: int) -> int: 
return 1 <<b 


def multy (pb: int) -> int: 
站 ,DS 0 -GE 村 
return 2 * mlty(b - 1) 


def faster(b: int) -> int: 
if B==, 人 Et 
if bp % 2 == 1: return 2 * faster(b - 1) 
t = faster(b // 2) 
下 全 七 站 


shifty () 函数 通过 左 移 位 (bit ) 计算 2 的 次 方 值 。multy () 函数 利用 简单 的 递归 乘法 计算 。 
faster() 函数 利用 分 治 策略 ， 只 需要 执行 log2(5) 次 乘法 运算 ,而 非 b 次 。 

以 上 3 个 函数 的 签名 完全 一 样 :callable[ [int], int], 与 Mersennel. init__ (self) 
方法 中 的 参数 algorithm 匹配 。 

下 面 就 可 以 根据 不 同 的 算法 创建 Mersennel 类 的 实例 了 ， 如 下 所 示 : 

mls = Mersennel (shifty) 


mlm = Mersennel (multy) 
milf = Mersennel (faster) 


这 样 就 利用 不 同 的 算法 ,定义 不 同 的 函数 ， 计 算得 到 了 相同 的 结 




















Python 可 以 计算 Mso=2”-1， 这 还 未 接近 其 谈 套 递归 深度 限制 。 这 是 一 个 很 大 的 
质数 ， 有 27 位。 


3.3 ”使 用 字符 串 


Python 的 字符 串 是 不 可 变 的 , 所 以 非常 适合 兽 数 式 编程 。Python 的 string 模块 所 含 的 方法 
都 会 创建 新 的 字符 串 作 为 结果 ， 这 些 方法 都 是 没有 副作用 的 纯 函 数 。 

字符 串 方 法 采用 后 绥 写 法 ,而 大 多 数 普 通 函 数 采用 前 缀 写法 , 这 导致 字符 串 操作 和 普通 函数 
运算 混合 在 一 起 时 ， 代 码 不 易 读 。 例 如 在 表达 式 len (variable.title()) 中 ，title() 采 用 
后 缀 写法 ， 而 len () 函数 采用 前 绥 写 法 。 


从 网 页 上 疏 取 数据 时 ， 经 常会 用 到 清洗 函数 ,对 原始 字符 串 执行 一 系列 转换 ， 去 掉 其 中 的 标 
点 符号 ， 最 后 返回 一 个 数值 对 象 供 其 他 函数 使 用 ， 这 时 前 级 写法 和 后 级 写法 就 会 混合 在 一 起 。 
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如 下 所 示 : 


from decimal import * 
from typing import Text, Optional 
def clean decimal (text: Text) -> OpPLional [Text] : 
if text is None: return None 
return Decimall( 
text.replace("$", "").replace(",", "")) 


这 个 函数 对 原始 字符 串 进行 了 两 次 蔡 换 ,分 别 移 除 其 中 的 $ 和 逗号 ,替换 结果 作为 Decimal 
类 构造 函数 的 参数 ， 返 回 相 应 的 数值 对 象 。 如 果 输 入 值 是 None， 则 返回 原 值 ， 所 以 使 用 了 类 型 
标示 Optional。 
为 了 使 语法 更 统一 ， 可 以 自 定 义 前 绥 式 的 字符 串 蔡 换 函数 ， 如 下 所 示 


def replace(str: Text, a: Text, b: Text) -> Text: 
return str.replace(a, b) 





























现在 可 以 使 用 统一 的 前 级 式 写法 了 : Decimal (replace (replace (text, "S$", ""),，",", 
"") )。 对 比 原来 的 前 级 -后 缀 混合 写法 ， 如 此 修改 后 ， 一致 性 似乎 没有 明显 提升 ， 这 是 一 个 一 致 
性 应 用 欠 受 的 例子 。 


更 好 的 做 法 是 重新 定义 一 个 语义 清晰 的 前 级 式 函数 来 吻 除 字符 串 中 的 标点 符号 ， 如 下 所 示 : 


def remove(str: Text, chars: Text) -> Text: 
if "charss 
return removel 
str.replace(chars{[0], ""), 
eharsltls] 
) 


retarn St 











该 函数 递归 地 剔除 chars 变量 中 的 每 个 字符 ， 因 此 可 以 把 原来 分 别 剔 除 $ 和 逗号 的 函数 改 
写成 更 清晰 的 形式 : Decimal (remove (text,，, "$,"))。 





3.4 使 用 元 组 和 命名 元 组 


Python 的 元 组 也 是 不 可 变 对 象 ， 因 此 很 适合 函数 式 编程 。 元 组 数据 结构 可 用 的 方法 不 多 ， 
大 多 数 处 理 都 是 通过 前 级 式 语法 完成 的 。 元 组 应 用 广泛 ， 主 要 用 于 元 组 列表 、 髓 套 元 组 和 元 组 
生成 天 。 

命名 元 组 这 个 类 为 元 组 增加 了 一 个 重要 特征 : 通过 属性 名 称 而 非 序号 引用 属性 。 我 们 可 以 使 
用 命名 元 组 创建 数据 累积 式 的 对 象 , 这 样 就 能 基于 无 状态 对 象 创建 纯 函 数 , 同时 保持 数据 以 对 象 
形式 有 序 地 组 织 在 一 起 了 。 


后 续 将 主要 使 用 元 组 和 命名 元 组 处 理 集合 数据 。 对 于 单个 或 者 两 个 独立 值 , 可 以 采用 函数 的 
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命名 参数 ; 而 当 处 理 集合 数据 时 ， 则 需要 使 用 可 和 迭代 元 组 或 者 可 迭代 命名 元 组 。 


使 用 元 组 还 是 命名 元 组 取决 于 具体 场景 中 使 用 哪 种 数据 结构 更 方便 ,例如 可 以 把 包含 红 、 绿 、 
蓝 三 种 颜色 的 数据 抽象 为 形 如 (number, number,， number) 的 三 元 组 ,但 这 个 定义 没有 红 、 绿 、 
蓝 的 顺序 。 有 几 种 方法 可 以 让 元 组 的 结构 更 清晰 。 
































> 


可 以 通过 下 面 这 个 函数 从 该 三 元 组 中 抽取 数据 来 表明 其 结构 。 





raed 三 Lambda Golor: GOLOrLO'] 
green = lambda color: color[1 
blue = lambda color: color [2 


对 于 元 组 item， 可 以 使 用 red (item) 从 中 选 出 红色 成 分 ， 并 添加 更 正式 的 类 型 标示 。 


from typing import Tuple, Callable 
RGB = Tuplel[lint, int, int] 
red: Callable[l[RGB], int] = lambda color: color[0] 





这 里 定义 了 代表 三 元 组 的 新 类 型 RGB。red 的 类 型 标示 是 callapble[ [RGB] ，int] ， 表 示 
它 是 一 个 函数 ， 输 入 参数 类 型 为 RGCB， 返 回 一 个 整 型 值 。 


或 者 使 用 旧式 命名 元 组 来 定义 : 


from collections import namedtutple 
Color = namedtuple("Color", ("red", "green", "blue", "name")) 


更 好 的 方法 是 使 用 typing 模块 中 的 NamedTuple 类 : 


from typing import NamedTuple 
class Color (NamedTuple): 
"""An RGB color.""" 
red: int 
green: jint 
blue: int 
name: str 









































Color 类 定义 了 元 组 中 每 个 位 置 的 名 字 和 类 型 标示 ， 在 保持 性 能 优势 和 不 可 变性 的 基础 上 ， 
还 可 以 利用 mypy 校 验 该 类 型 变量 的 使 用 方法 是 否 恰当 。 

通过 上 面 两 种 方法 提取 红色 时 ， 可 以 用 item.red 代替 rea(item) ， 它 们 都 比 item[0] 可 
读 性 好 。 

元 组 在 函数 式 编程 中 的 应 用 侧重 于 可 迭代 元 组 设计 模式 。 之 后 会 详细 介绍 几 种 可 迭代 元 组 技 
术 ， 第 7 章 将 介绍 命名 元 组 技术 。 





























3.4.1 使 用 生成 器 表达 式 
前 面 给 出 了 一 些 生成 器 表达 式 的 示例 , 稍 后 会 给 出 更 多 生成 器 表达 式 , 本 节 将 介绍 关于 生成 
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器 的 一 些 高 级 技术 。 


生成 器 表达 式 常 用 于 通过 列表 推导 或 者 字典 推导 生成 列表 或 者 字典 字面 量 。 以 [xx*2 for 
x in range(10)] 为 例 ， 它 是 一 个 列表 推导 ， 也 称 列 表 展 示 。 列 表 展 示 是 生成 器 表达 式 的 一 
种 用 法 ,集合 ( 列表 或 字典 ) 展示 包含 闭合 的 字面 语法 ,这 里 是 用 列表 的 字面 语法 [] 包 于 生成 
髓 [xxx*2 for x in range(10)]， 表 示 这 是 一 个 列表 推导 ,返回 一 个 由 其 中 包含 的 生成 器 
表达 式 x**2 for x in range(10) 生 成 的 列表 对 象 。 本 节 主 要 介绍 生成 器 表达 式 ， 不 涉及 
列表 对 象 。 


集合 对 象 和 生成 器 表达 式 都 是 可 迭代 的 , 因此 许多 行为 相似 , 但 稍 后 会 看 到 , 它们 并 不 等 同 。 
使 用 展示 的 缺点 是 会 生成 一 个 〈 可 能 比较 大 的 ) 集合 对 象 ， 而 生成 器 表达 式 是 惰性 的 ， 按 需 创建 
值 ， 因 而 可 提升 性 能 。 


对 于 生成 名 表达 式 ， 需 要 说 明 两 点 : 


口 除了 被 一 些 特殊 函数 (例如 len () 等 需要 知道 整个 集合 大 小 的 函数 ) 使 用 时 ， 生 成 器 的 
行为 与 序列 类 似 ; 
口 生成 器 只 能 使 用 一 次 ， 可 将 使 用 完 的 生成 器 视 为 空 的 。 


下 面 是 一 个 后 续 示 例会 用 到 的 生成 器 函数 : 


def pfactorsl(x: int) -> Iterator[int]: 
En 
yielda 2 
1 2 
yield from pfactorsl(x // 2) 
return 
for i in range(3, int (math.sqrt (x) + .5) + 1, 2): 
LE 0 

































































yield i 
Lf /A/ TS | 汪 
yield from pfactorsl(x // i) 

















return 
yielgd x 
该 函数 计算 输入 值 的 所 有 质 因 数 。 如 果 输 入 值 x 是 偶数 ， 则 返回 2， 然 后 递归 计算 出 x/2 的 





所 有 质 因数 。 


对 于 奇数 ， 从 3 开始 依次 验证 每 个 奇数 是 不 是 输入 值 的 因数 ， 如 果 是 ， 返 回 该 因数 i， 然 后 
递归 生成 xz 的 所 有 质 因 数 。 


如 果 输 入 值 没 有 质 因 数 ， 它 本 身 一 定 是 质数 ， 会 返回 它 自 身 。 
这 里 2 作为 一 个 特殊 值 ， 每 次 可 以 将 迭代 次 数 减 半 ， 因 为 2 以 外 的 所 有 质数 都 是 奇数 。 
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除了 递归 ， 上 面 的 函数 还 使 用 了 for 循环 ， 这 样 就 可 以 处 理 质 因 数 个 数 多 达 1000 的 输入 值 
了 【以 2 为 例 ， 它 有 300 位 长 ， 有 1000 个 质 因数 )。 由 于 没有 在 for 循环 外 使 用 循环 变量 i， 
因此 当 修改 循环 体 时 ， 它 有 状态 的 特点 并 不 会 带 来 麻烦 。 











这 个 例子 展示 了 如 何 手动 实现 尾 递归 优化 ， 用 循环 代替 了 从 3 到 Vx 的 递归 求 值 ， 避 免 了 深 
套 的 递归 调用 。 
由 于 函数 是 可 迭代 的 ， 用 yield from 语句 从 递归 调用 中 计算 出 所 有 值 ， 返 回 给 调用 者 。 








河 
由 

















在 递归 生成 器 函数 中 要 谨慎 使 用 return 语句 ， 不 要 用 下 面 的 命令 行 : 


Return recursive_iter(args) 


0 它 只 返回 生成 器 对 象 ， 而 不 对 函数 求 值 并 返回 结果 ， 下 面 两 种 写法 可 行 : 


for result in recursive iterl(args): 
yield result 


或 者 


yield from recursive_ iterl(args) 


上 面 函 数 的 纯 递归 版 本 如 下 : 


def pfactorsr (x: int) -> Iteratorl[int]: 
def factor_n(x: int, n: int) -> Iteratorl[lint]: 
ti i No 
yield x 
return 
中“ 六 “多, 丽人 二 三 
yield n 
让 7 
yield from factor n(x//n, n) 
else: 
yield from factor n(x, n+2) 
2 
yield 2 
Tf /YD 
yield from pfactorsr (x//2) 
return 
yield from factor_n(x, 3) 








首先 定义 内 部 递归 函数 factor_n() 测 试 3<n< Vx 范围 内 n 是 否 为 x 的 因数 ,如果 待 测 的 
n 不 在 此 范围 内 , 说 明 x 是 质数 。 否则 检查 n 是 否 是 x 的 因数 , 如 果 是 , 返回 n， 并 递归 生成 地 的 


所 有 质 因数 ,否则 递归 测试 n+2 是 否 是 x 的 因数 ,这 里 需要 递归 测试 (n +2,n+2+2,n+2+2+2,…) 
中 的 所 有 值 ， 虽 然 它 在 写法 上 比 前 面 的 for 循环 版 本 简单 ， 但 由 于 Python 栈 长 度 限制 ,无 法 处 
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理 因 数 个 数 超过 1000 的 情况 。 


外 层 函 数 处 理 边界 情况 。 与 其 他 质数 处 理 算法 一 样 ， 这 里 将 2 作为 特殊 情形 ， 对 于 偶数 ,， 首 
先 返回 2， 然 后 递归 生成 x= 2 的 质 因数 。 其 他 质 因数 一 定 是 不 小 于 3 的 奇数 ， 所 以 从 3 开始 用 
factor_n() 函数 依次 测试 每 个 可 能 的 解 。 


纯 递 归 函 数 最 多 能 处 理 约 4 000 000 个 输入 值 。 超 过 这 个 值 ， 计 算 会 由 于 超出 
Python 的 谋 套 递归 深度 上 限 而 失败 。 


3.4.2 ”生成 器 的 局 限 
生成 需 表 达 式 和 生成 需 函 数 是 有 局 限 的 ， 如 下 所 示 : 


>>> from ch02 ex4 import * 
>>> pfactorsl(1560) 
<generator object pfactorsl at 0x1007b74b0> 
>>> list(pfactorsl1l(1560)) 
[2, 2, 2, 3, 5, 13] 
>>> len(pfactors1l(1560)) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: object of type 'generator' has no len() 



































第 一 个 例子 表明 生成 器 函数 不 是 严格 求 值 的 ,是 惰性 的 ,在 外 部 对 其 求 值 之 前 ， 并 不 进行 实 
际 的 计算 。 这 不 是 局 限 ， 而 是 将 生成 器 表达 式 用 于 Python 函数 式 编程 的 原因 。 








第 二 个 例子 通过 实例 化 生成 器 函数 得 到 一 个 列表 对 象 ， 便 于 观察 输出 和 编写 单元 测试 用 例 。 





第 三 个 例子 体现 了 生成 器 函数 的 一 个 局 限 : 不 能 使 用 len () 函数 求 其 长 度 。 因 为 生成 器 是 惰 
生 的 ， 所 以 在 所 有 值 都 取 完 之 前 ， 无 法 知道 值 的 总 数 。 


生成 器 函数 的 另 一 个 局 限 是 只 能 使 用 一 次 ， 如 下 所 示 : 





一 











>>> result = pfactorsl(1560) 
>>> sum(result) 

3 

>>> sum(result) 

0 


























第 一 次 使 用 sum () 函数 对 生成 器 求 值 后 , 第 二 次 再 使 用 时 生成 器 为 空 了 , 表明 生成 器 只 能 用 
一 次 。 

















Python 中 的 生成 器 是 有 生命 周期 的 ， 从 函数 式 编程 的 角度 看 这 不 是 特别 理想 。 























可 以 使 用 itertools.tee() 函数 弥补 只 能 用 一 次 的 限制 , 第 8 章 会 详细 介绍 这 一 点 。 下 面 
是 一 个 简单 的 示例 : 
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import itertools 

from typing import Iterable, Any 

def limits(iterable: Iterable[Any]) -> Any: 
max_tee, min tee = itertools.tee(iterable, 2) 
return max(max_ tee), min(min tee) 


这 为 作为 参数 传人 的 生成 器 表达 式 创建 了 两 个 副本 : max_tee () 和 min_tee() ,保持 原始 
生成 器 不 变 ， 借助 这 个 功能 ， 可 以 非常 灵活 地 把 函数 组 合 在 一 起 。 通 过 对 两 个 副本 求 值 , 得 到 生 
成 器 计算 结果 的 最 大 值 和 最 小 值 。 


可 和 迭代 对 象 中 的 值 取 完 后 , 将 不 再 生成 任何 值 。 当 需要 对 生成 器 进行 多 种 归 约 时 , 例如 求 和 、 
计数 、 求 最 大 值 或 最 小 值 等 ， 请 注意 ， 设 计算 法 时 必须 考虑 到 只 能 用 一 次 这 个 特点 。 
3.4.3 组 合生 成 器 表达 式 


函数 式 编程 的 核心 特征 是 : 通过 灵活 地 组 合生 成 器 表达 式 和 生成 器 函数 描述 复杂 的 处 理 流 
程 。 下 面 介 绍 使 用 生成 器 表达 式 时 几 种 常用 的 组 合 方法 。 


第 一 种 方法 是 通过 创建 复合 函数 来 组 合生 成 器 。 假 设 有 个 生成 器 (f(x) for x in 
range () ) ， 如 果 需 要 计算 g (f(x) )， 可 用 以 下 几 种 方法 来 组 合 它 们 。 


可 以 把 原来 的 生成 如 表达 式 改 成 如 下 形式 : 


人 下 > 区 (人 (人 区) 六 Xn Fanget()y) 
这 种 方式 从 技术 上 说 是 正确 的 ,但 违背 了 复 用 原则 ; 没有 复 用 已 有 的 表达 式 ， 而 是 改写 了 。 
也 可 将 一 个 表达 式 租 入 另 一 个 表达 式 中 ， 如 下 所 示 : 













































































g_f x = (g(y) for y in (f(x) for x in range())) 

这 样 就 可 以 方便 地 进行 变量 替换 了 。 可 通过 如 下 命令 实现 复 用 : 
f x = (f(x) for x in range()) 

(UY) OEYy I 














这 种 实现 方法 的 优点 是 无 须 改写 原来 的 表达 式 (f (x) for x in range())， 只 需 把 它 赋 给 
一 个 变量 即 可 。 


组 合 后 的 表达 式 仍然 是 生成 器 表达 式 ， 并 且 是 惰性 的 。 当 从 g_f_x 中 取出 一 个 值 时 ， 它 会 
从 f_x 中 取 一 个 值 ，f_x 再 从 range() 图 数 中 取 一 个 值 。 
3.5 ”使 用 生成 器 函数 清洗 原始 数据 

EDA 中 经 常 需要 清洗 原始 数据 ， 通 过 执行 一 系列 标量 函数 ， 把 输入 数据 转换 为 可 用 的 数据 


es 
口 o 























漆 
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下 面 介绍 一 个 简化 的 数据 集合 ， 这 是 EDA 领域 中 常用 于 演示 数据 处 理 技术 的 数据 集 : 安 斯 
库 姆 四 重奏 ， 名 字 来 自 F.J Anscombe 于 1973 年 在 《美国 统计 学 家 》 杂 志 上 发 表 的 文章 “Graphs 
in Statistical Analysis”。 该 数据 集 的 前 几 行 如 下 所 示 : 


Anscombe's quartet 
i i i 











8.74 13.0 12.74 


csv 模块 无 法 直接 解析 这 样 的 数据 格式 , 需要 先 解码 才能 从 文件 中 抽取 有 用 的 信息 。 由 于 数 
据 之 间 都 是 用 Tab 分 隔 的 , 可 以 使 用 csv .reader () 函数 处 理 每 一 行 数 据 。 首 先 定 义 一 个 数据 迭 
代 器 ， 如 下 所 示 : 

import csV 

from typing import IO, Iterator, List, Text, Union, Iterable 


def row_iter(source: IO) -> Iterator[List[Text]]: 
return csv.reader (source, delimiter="\t") 


这 里 只 是 简单 地 把 文件 对 象 包 庄 在 csv .reader () 函数 中 , 生成 一 个 行 迭代 器 。 类 型 模块 为 
文件 对 象 提供 了 方便 的 定义 : I0。csv .reader () 负责 迭代 处 理 所 有 行 , 每 一 行 是 一 个 文本 值 列 
表 。 人 额外 添加 一 个 类 型 定义 Row = List [Text] 会 使 之 更 明确 。 


在 如 下 所 示 的 上 下 文中 使 用 *ow_iter () 函数 : 


with open("Anscombe.txt") as source: 
print (list (row_iter(source))) 


虽然 确实 包含 了 有 用 的 数据 ， 但 返回 结果 的 前 3 行 并 不 是 数据 ， 如 下 所 示 : 


[["Anscombe's quartet"], 
| i ET 如 
Ly bi Tae he oo ba Coe Don] 


需要 过 滤 掉 这 些 非 数据 的 行 。 下 面 的 函数 会 移 除 迭代 器 的 前 3 行 , 返 回 包含 剩余 行 的 欠 代 器 。 


def headq_sp1it_fixed( 
row_iter: Iterator[List[Text]] 
) -> Iterator[List[Text]]: 
title = next (row_iter) 











assert (len(title) == 1 
angd title[0] == "Anscombe's quartet") 
heading = next (row_iter) 
assert (len(heading) == 4 
and. headine se [SL TIT, "ITIL, “EY 
columns = next (row_iter) 
assert (len(columns) == 8 
dn .Columns .SS 


return row_iter 
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该 函数 会 移 除 可 迭代 对 象 的 前 3 行 ， 并 检查 剩余 和 否 符合 预期 ， 如 果 不 相符 ， 说 明文 
件 已 损坏 ， 或 者 这 并 不 是 要 处 理 的 文件 。 





由 于 *ow_iter() 和 headq_split_fixed() 函数 都 使 用 可 迭代 对 象 作 为 输入 参数 ， 可 以 将 
它们 合并 ， 如 下 所 示 : 


with open("Anscombe.txt") as source: 
print (list (head_ split_ fixed(row_iter(source)))) 


将 一 个 迭代 器 的 处 理 结果 作 为 参数 传递 给 男 一 个 迭代 器 ,实际 上 这 是 一 个 复合 函数 。 当 然 ， 
整个 数据 清洗 并 没有 到 此 结束 , 还 需要 将 字符 串 转 换 为 浮 点 数 ,然后 将 每 行 中 4 个 并 行 序列 的 数 
据 分 开 。 




















使 用 高 阶 函数 (如 map() 和 filter() ) 来 进行 最 终 的 转换 和 数据 抽取 会 比较 简单 ,， 第 5 章 
将 详细 介绍 。 


3.6 ”使 用 列表 、 字 典 和 set 


Python 的 序列 对 象 (例如 列表 ) 是 可 迭代 的 ， 当 然 还 有 其 他 一 些 特点 ， 可 以 把 它们 看 作 实 例 
化 的 可 迭代 对 象 。 在 前 面 的 例子 中 ,使 用 了 tuple () 函数 将 生成 器 表达 式 或 生成 器 函数 的 输出 
收集 到 单个 元 组 对 象 中 。 也 可 以 将 序列 实例 化 ， 以 生成 列表 对 象 。 


Python 的 列表 推导 提供 了 实例 化 生成 器 的 一 种 简单 方法 : 添加 方 括号 [] 。 生 成 器 表达 式 和 
列表 推导 基本 没有 区 别 ， 不 用 纠结 于 生成 器 表达 式 和 使 用 了 生成 器 表达 式 的 列表 扒 导 的 区 别 。 


相关 示例 如 下 : 


>>> range(10) 

range(0, 10) 

>>> [range(10)] 

[range (0, 10)] 

>>> [x for x in range(10)] 

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 
>>> list(range(10)) 

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 




















A 


第 一 个 例子 是 range 对 象 ， 是 一 种 生成 器 函数 。 它 是 惰性 的 ,所 以 创建 后 不 生成 任何 数值 。 














6 range (10) 是 惰性 的 ， 仅 在 需要 迁 代 所 有 值 时 才 会 执行 10 次 求 值 。 


A 


第 二 个 例子 是 一 个 包含 生成 器 函数 的 列表 ，[] 语 法 创建 了 一 个 包含 range 对 象 的 列表 字面 
量 ， 不 对 和 迭代 顺 生 成 的 值 执行 任何 求 值 操作 。 
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第 三 个 例子 演示 了 如 何 通过 把 生成 器 函数 包含 在 生成 器 表达 式 中 来 创建 列表 推导 。 生 成 器 表 
0) 对 生成 器 函数 range (10) 求 值 ， 返 回 结果 保存 在 列表 对 象 里 。 





达 式 x for x in range(1 
另外 ， 还 可 以 使 用 1ist () 函数 ， 基 于 可 迭代 对 象 或 者 生成 器 表达 式 创建 列表 。 该 方法 同样 
适用 于 set ()、tuple() 和 dict()。 








量 不 会 。 

在 Python 中 , 可 以 通过 [] 和 {} 这 样 的 简单 形式 创建 列表 、 字典 和 set, 而 要 实例 化 元 组 对 象 ， 
必须 使 用 tuple () 函数 。 为 了 保持 代码 风格 一 致 ， 建 议 统一 使 用 函数 名 , 如 list () 、tuple() 
和 set () 实例 化 对 象 。 

前 面 数据 清洗 的 例子 使 用 一 个 复合 函数 生成 了 一 个 包含 4 个 元 组 的 列表 ， 该 函数 如 下 所 示 ; 


人 1ist(zange(10) ) 函数 会 对 内 部 的 生成 器 函数 求 值 , 而 [range(10)] 列 表 字 面 























with open("Anscombe.txt") as source: 
data = head_ split_ fixed(row_iter(source)) 
print (list (data)) 


将 复合 函数 的 返回 结果 赋 给 变量 aata，data 如 下 所 示 : 


上 





F200l AN Sl 

[5.0，， (5 

至 此 还 需要 些许 处 理 才能 使 之 达到 可 用 状态 。 首 先 要 从 八 元 组 中 拆 出 4 组 数据 , 下 面 的 函数 
实现 了 按 列 分 组 : 


from typing import Tuple, cast 


Pair = Tuple[str, str] 


def series( 
n: int, row_iter: Iterablel[List[Text]] 


) -> Iterator[Pair]: 
for row in row_iter: 
Yield cast (Pair, tuple(row[n * 2: n * 2 + 2])) 


这 个 函数 将 相 邻 的 两 列 分 成 一 组 ,按照 从 0 到 3 的 顺序 一 共 分 成 4 组 ,用 组 内 的 两 列 生 成 一 
个 tuple 对 象 。 其 中 cast () 函数 用 于 显 式 说 明 mypy 工具 返回 的 结果 是 一 个 元 素 为 字符 串 的 二 
元 组 。 之 所 以 要 特别 指明 ， 是 因为 mypy 等 工具 很 难 分 析出 tuple (row[n * 2: n * 2 + 2]) 
从 行 集合 中 取出 的 是 两 个 元 素 。 

使 用 如 下 函数 可 以 生成 帆 套 元 组 的 


with open("Anscombe.txt") as source: 
data = tuple(head_ split_ fixed(row_iter(source))) 
sample_I1 = tuple(series(0, data)) 
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sample_II = tuple(series(1, data)) 
sample_III = tuple(series(2, data)) 
sample_IV = tuple(series(3, data)) 
这 里 用 tuple () 函数 处 理 之 前 由 head_split_fixed() 和 row_iter() 方 法 组 成 的 复合 函 
数 的 返回 值 ， 生 成 的 对 和 象 可 供 后 续 函 数 复 用 。 如 果 这 里 没有 把 返回 值 实例 化 为 一 个 元 组 , 后 面 的 
处 理 函 数 只 有 第 一 个 能 获得 实际 输出 数据 , 之 后 作为 数据 源 的 迭代 器 被 置 空 , 再 访问 它 只 会 返回 


办 疆 甲 
空 结 果 。 




















series () 将 提取 出 的 两 个 数据 转换 为 Pair 对象， 然后 用 tuple () 函数 实例 化 返回 的 般 套 
元 组 序列 ， 以 便 进 一 步 处 理 各 元 素 。 


sample_I 中 的 数据 如 下 所 示 


CEO NO “B04 sy (Bed MOIS) ("30 .58.") 
Com BB py CE B33 0) TS 94:9.00) 
(TOO Mad 0s ("20 10.84') 
V0 82 ) yy C50 5508 )) 





另外 3 个 序列 与 上 面 的 序列 虽然 值 不 同 ， 但 结构 相同 。 


整个 处 理 流程 的 最 后 一 步 是 把 得 到 的 字符 串 转 换 为 数值 ， 然 后 计算 各 项 统计 数据 。 这 一 步 中 
的 转换 通过 float () 函数 实现 , 该 函数 可 以 放 在 许多 不 同 的 地 方 。 第 5 章 将 介绍 几 种 不 同 的 方案 。 


如 下 所 示 使 用 float () 函数 : 


mean = ( 
sum(float (pair[1]) for pair in sample_I) / len(sample_I) 


) 
这 样 就 算出 了 每 个 二 元 组 中 y 的 平均 值 。 可 以 用 下 面 的 方法 算出 各 个 集合 的 统计 值 : 
for subset in sample_I, sample_II, sample_III, sample_III: 


mean = ( 
sum(float (pair[1]) for pair in subset) / lenl(subset) 











) 
print (mean) 
至 此 就 计算 出 了 源 数据 库 中 每 对 数据 的 y 的 平均 值 , 并 且 创建 了 一 个 以 命名 元 组 为 元 素 的 元 
组 序列 ,用 于 描述 源 数 据 库 中 的 数据 。pair[1] 这 种 写法 可 读 性 较 差 ,第 7 章 将 介绍 如 何 使 用 命 
名 元 组 简化 复杂 元 组 结构 中 对 数据 项 的 引用 。 


为 了 降低 内 存 占用 、 提 高 性 能 , 建议 尽量 使 用 生成 器 表达 式 和 函数 , 它们 采用 惰性 ( 非 严 格 ) 
方式 欠 代 对 集合 元 素 求 值 ， 按 需 进 行 计 算 。 由 于 迭代 器 只 能 使 用 一 次 ， 有 时 必须 将 集合 实例 化 为 
元 组 对 象 或 者 列表 对 象 。 实 例 化 集合 耗费 内 存 和 时 间 ， 所 以 只 在 必要 的 时 候 这 么 做 。 


熟悉 Clojure 的 开发 者 不 难 发 现 , Python 的 惰性 生成 需 与 Clojure 的 lazy-seq 和 lazy-cat 
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函数 是 对 等 的 ， 它 们 提供 了 相同 的 功能 : 开发 者 可 以 定义 一 个 无 限 序列 ， 仅 在 需要 的 时 候 从 中 
取 值 。 


3.6.1 使 用 状态 映射 


Python 提供 了 儿 个 有 状态 的 集合 数据 结构 , 包括 字典 类 和 collections 模块 中 定义 的 映射 
数据 结构 。 这 些 数据 结构 都 是 有 状态 的 ， 使 用 的 时 候 要 小 心 。 


就 本 书 主题 而 言 , 映射 主要 有 两 个 使 用 场景 :将 映射 聚合 在 一 起 的 有 状态 字典 和 不 可 变 字 上 典 。 
本 章 的 第 一 个 例子 演示 了 ElementTree.findall () 方 法 如 何 使 用 不 可 变 字 典 。 Python 没有 提供 
简单 易 用 的 不 可 变 映 射 数据 结构 ， 虽 然 collection.abc.Mapping 类 是 不 可 变 的 ， 但 不 易 使 用 ， 
第 6 章 将 详细 讨论 这 个 话题 。 


在 不 考虑 使 用 collections .abc.Mapping 抽象 类 的 情况 下 ， 可 以 采取 一 些 简 单 的 变通 方 
法 保证 数据 的 不 可 变性 质 ， 包 括 映射 变量 ( 不妨 叫 它 ns_map ) 只 出 现在 赋值 语句 左边 一 次 ， 避 
免 使 用 ns_map .update() 或 者 ns_map.pop() 方 法 , 不 在 ael 语句 中 使 用 映射 变量 等 。 


有 状态 的 字典 数据 结构 主要 有 如 下 两 个 使 用 场景 。 


口 只 创建 一 次 ， 且 不 再 更 新 。 在 这 种 情况 下 ,通常 使 用 aict 类 的 散 列 键 功 能 提高 性 能 。 通 
过 aict(seqence) 函数 ， 可 以 基于 任何 (key，value) 组 成 的 可 迭代 序列 创建 字典 。 

口 琶 加 式 构 造 字 典 。 使 用 它 避 免 对 列表 对 象 进 行 实例 化 和 排序 。 第 6 章 会 通过 分 析 
collections .Counter 类 讲解 高 级 归 约 技术 。 男 外 ， 在 记忆 化 技术 中 ， 也 常用 又 加 式 
构造 。 第 16 章 会 详细 介绍 记忆 化 技术 。 


作为 上 面 使 用 场景 的 第 一 个 例子 , “只 创建 不 修改 ”这 种 方式 主要 适用 于 三 段 式 处 理应 用 |: 
收集 输入 , 创建 一 个 字典 对 象 ,最 后 根据 字典 中 的 映射 处 理 输 入 。 这 类 场景 的 一 个 常见 应 用 是 在 
图 像 处 理 中 用 (R, G, B) 元 组 指定 颜色 值 。 当 使 用 GIMP ( GNU Image Manipulation Program ) 文件 
格式 时 ， 调 色 板 定义 如 下 所 示 : 

GIMP Palette 

Name: Small 


Columns: 3 
# 






































































































































0 0 0 Black 
255 22535. 255 White 
238° 332” 了 Red 
8 1 172 -120 Green 
i 5 示 Blue 





第 6 章 将 详细 介绍 解析 这 类 文件 的 方法 ， 这 里 只 关注 解析 的 结果 。 
首先 ， 定 义 一 个 名 为 color 的 命名 元 组 : 
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from collections import namedtuple 
Color = namedtuple("Color", ("red", "green", "blue", "name")) 


接 下 来 ， 假 设 我 们 用 解析 器 生成 了 由 color 对 象 组 成 的 解析 器 ， 如 果 将 其 实例 化 ， 转 换 成 
的 元 组 如 下 所 示 : 
(Color (red=239, green=222, blue=205, name='Almond'), 


( 
Color (red=205, green=149, blue=117, name='Antique Brass'), 
Color (red=253, green=217, pblue=181, name='Apricot'), 
( 
( 








Color (red=197, green=227, blue=132, name='Yellow Green'), 
Color (red=255, green=174, blue=66, name='Yellow Orange')) 





为 了 能 根据 颜色 名 称快 速 定位 到 颜色 元 组 , 需要 基于 该 序列 创建 一 个 不 可 变 字典 。 当 然 , 这 
不 是 根据 名 称快 速 定位 的 唯一 方法 ， 后 面 会 介绍 其 他 方法 。 


从 元 组 创建 映射 ， 需 要 使 用 之 前 讲 过 的 brocess (wrap (iterable) ) 设 计 模 式 。 创 建 颜色 
映射 如 下 所 示 : 


name_map = dict((c.name, c) for c in sequence) 




















其 中 序列 变量 是 前 面 提 到 的 color 对 象 ， 模 式 中 的 wrap () 步 又 将 每 个 color 对 象 转换 为 
元 组 (c.name，c) ，process () 步 又 使 用 aict 初始 化 方法 生成 一 个 从 名 称 到 color 对 象 的 映 
射 。 转 换 结果 如 下 所 示 


{'Caribbean Green': Color (red=28, green=211, blue=162, 

name='Caribbean Green'), 

'Peach': Color(red=255, green=207, blue=171, name='Peach'), 

'Blizzard Blue': Color(red=172, green=229, blue=238, name='Blizzard Blue'), 
etc. 


} 




















由 于 字典 中 元 素 的 顺序 是 随机 的 ， 所 以 运行 结果 中 caribbean Green 可 能 不 在 第 一 位 。 


这 样 就 完成 转换 了 ， 生 成 的 字典 对 象 后 续 将 多 次 用 于 从 名 称 到 (R, G, B) 色 值 的 转换 过 程 中 。 
由 于 字典 在 查找 元 素 时 首先 将 键 值 转换 为 散 列 值 ， 所 以 查找 速度 会 非常 快 。 

















3.6.2 ”使 用 bisect 模块 创建 映射 


前 面 的 例子 通过 创建 字典 实现 了 从 颜色 名 称 到 color 对 象 的 快速 映射 。 除 此 之 外 ， 还 可 以 
使 用 bisect 模块 来 实现 。 使 用 bisect 模块 需要 先 创建 一 个 有 序 对 象 ， 然 后 才能 搜索 。 为 了 保 
持 与 字典 映射 结构 兼容 ， 可 以 使 用 collections .abc.Mapping 作为 基 类 。 


字典 映射 使 用 散 列 值 搜索 元 素 ， 速 度 非常 快 ， 但 需要 消耗 大 量 内 存 。 相 比 而 言 ，bisect 映 
射 的 搜索 速度 也 很 快 ， 并 且 使 用 的 内 存 较 少 。 


下 面 定义 一 个 静态 映射 类 : 






































import bisect 
from collections import Mapping 
from typing import Iterable, Tuple, Any 
class StaticMapping (Mapping): 
def __init__(self, 


iterable: Iterable[Tuple[Any, Anyl]) -> None: 
self._ data = tuple(iterable) 
self._keys tuple(sorted(key for key, _ in self._ data)) 


def _ getitem (self, key): 

ix = bisect.bisect_left (self._keys, key) 

if ix != len(self._keys) 

and self._keys[ix] == key_: 
return self._ datal[lix][1] 

raise ValueError("{0!r} not found".format (key)) 
def __iter (self): 

return iter(self._keys) 
def __len (self) : 

return len(self._keys) 


这 个 类 从 抽象 超 类 collections .abc.Mapping 派生 而 来 ， 它 定义 了 新 的 初始 化 方法 ， 并 
增加 了 基 类 中 没有 的 3 个 方法 。Tuple[Any，Any] 定 义 了 一 个 代表 普遍 情形 的 二 元 组 。 
_getitem__ () 方 法 用 bisect.bisect_left() 函数 搜索 集合 内 的 所 有 键 , 如 果 找 到 了 目 
标 键 ， 则 返回 相应 结果 。 iter _() 方 法 返回 超 类 需要 的 迭代 妖 __() 方 法 与 之 类 似 ， 
回 整个 集合 的 长 度 。 
或 者 参照 collections.OrderedDict 类 的 代码 ， 把 超 类 从 MutableMapping 改 成 
Mapping， 并 移 除 能 修改 状态 的 所 有 方法 。8.4.1 节 会 介绍 应 保留 或 气 弃 哪些 方法 。 


更 多 相关 信息 , 可 访问 https://docs.python.org/3.3/library/collections.abc.html#collections-abstract- 
base-classes。 


这 个 类 并 没有 严格 遵循 函数 式 编程 的 原则 , 我 们 的 目标 是 为 大 型 应 用 提供 一 种 尽量 少 使 用 有 
的 方法 ， 这 个 类 保存 了 键 值 对 的 静态 集合 。 作 为 优化 手段 ， 它 实例 化 了 两 个 对 象 。 


量 
通过 实例 化 对 象 , 使 用 这 个 类 的 应 用 能 实现 快速 键 查找 。 ~ 0 所 以 整 
合 是 

见 

































































无 状态 的 。 它 的 速度 没有 内 置 的 字典 快 , 但 使 用 内 存 少 ,由 类 的 基 类 是 Mapping， 
可 以 想见 这 个 类 的 实例 不 是 用 于 存储 过 程 状态 的 。 
3.6.3 ”使 用 有 状态 的 set 


Python 提供 了 多 种 有 状态 的 集合 , 包括 set 集合 。 本 书 中 set 有 两 个 主要 的 使 用 场景 : 用 有 状 
态 的 set 收集 数据 ， 或 者 用 不 可 变 set ( frozenset ) 优化 数据 搜索 算法 。 


基于 可 迭代 对 象 创建 frozenset 跟 通 过 fronzenset (some_iterable) 方 法 创建 元 组 对 
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象 的 方法 类 似 。 创 建 的 集合 可 以 执行 快捷 in 操作 。 整 个 处 理 过 程 是 : 收集 数据 ,创建 set， 用 此 
frozenset 处 理 其 他 数据 。 


有 时 会 用 一 组 颜色 进行 色 键 处 理 , 也 就 是 借助 某 个 颜色 生成 的 遮 罩 来 合并 两 张 图 片 。 实 践 中 ， 
使 用 单一 颜色 的 色 键 效果 不 理想 , 而 使 用 一 组 相近 的 颜色 效果 会 好 很 多 , 这 时 就 需要 判断 一 个 图 像 
文件 的 每 个 像素 是 否 在 色 键 集合 中 。 在 这 种 情况 下 , 通常 的 做 法 是 在 处 理 目标 文件 之 前 , 先 把 所 有 
的 色 键 颜色 放 和 人 一 个 frozenset 里 。 关 于 色 键 处 理 的 更 多 信息 , 可 参考 维基 百科 词 条 Chromakey。 


对 于 映射 (尤其 是 counter 类 ), 使 用 记忆 化 数值 往往 能 大 幅 提 高 算法 性 能 。 有 些 函 数 运用 
记忆 化 技术 提高 性 能 ， 因 为 它 在 域 值 和 范围 值 之 间 做 映射 ， 而 这 恰好 是 映射 数据 结构 的 专长 。 男 
一 些 算法 则 在 处 理 数 据 的 过 程 中 维护 不 断 积累 的 记忆 化 数据 集合 ， 以 此 提高 性 能 。 


第 16 章 会 介绍 记忆 化 的 相关 内 容 。 



















































































3.7 小 结 


本 章 重 点 介绍 了 如 何 编写 没有 副作用 的 纯 函 数 。 实 现 这 一 点 并 不 难 ， 因 为 Python 要 求 在 写 
不 纯粹 的 函数 时 必须 使 用 global 语句 。 然 后 探讨 了 生成 吉 函 数 ,， 以 及 如 何以 其 为 基础 进行 函数 
式 编 程 。 还 介绍 了 Python 内 置 的 集合 类 ， 以 及 如 何在 函数 范式 中 使 用 它们 。 函 数 式 编程 整体 上 
尽量 避免 使 用 有 状态 的 变量 , 然而 集合 数据 类 型 往往 是 有 状态 的 , 而 且 许 多 算法 正 是 使 用 了 集合 
有 状态 的 特性 ， 所 以 在 利用 Python 的 非 函数 特性 时 ， 务 必 考 虑 清楚 。 

接 下 来 的 两 章 主要 讨论 高 阶 函 数 : 以 函数 为 参数 , 或 者 返回 男 一 个 函数 的 函数 。 首 先 会 介绍 
Python 内 置 的 高 阶 函 数 ， 然 后 会 介绍 自 定义 高 阶 函 数 的 相关 技术 ， 以 及 itertools 模块 和 
functools 模块 中 的 高 阶 函 数 。 
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Python 提供 了 很 多 能 处 理 集合 的 函数 ， 可 以 用 于 序列 ( 列表 或 元 组 )、set、 映 射 ， 以 及 生成 
器 表达 式 返回 的 可 迭代 对 象 。 本 章 将 从 函数 式 编程 的 视角 研究 Python 的 集合 处 理 函 数 。 


首先 介绍 可 迭代 对 象 及 相关 的 简单 函数 , 然后 研究 几 种 使 用 递归 函数 和 for 循环 处 理 可 迭代 
对 象 和 序列 的 设计 模式 ， 最 后 讲解 如 何 将 标量 函数 应 用 于 带 有 生成 器 表达 式 的 集合 。 


本 章 将 介绍 如 何 使 用 下 列 函 数 处 理 集合 : 























Dany() 和 all() 
口 len () 、sum() 和 一 些 统计 处 理 相 关 的 高 阶 函 数 
口 zip() 以 及 一 些 与 结构 化 或 者 平 铺 列表 数据 相关 的 技术 


口 reversed() 





D enumerate() 


前 4 个 函数 属于 归 约 函数 ,它们 将 一 个 集合 归 约 为 单个 值 ,其 他 3 个 函数 zip() ,reversed () 
和 enumerate () 属于 映射 函数 , 基于 已 有 的 集合 生成 新 集合 。 下 一 章 主 要 介绍 映射 和 归 约 函数 ， 
它们 可 以 使 用 附加 的 函数 参数 来 定义 具体 的 处 理 方法 。 


本 章 首 先 讲解 如 何 使 用 生成 器 表达 式 处 理 数据 , 然后 用 多 种 集合 级 函数 来 演示 它们 如 何 简化 
迭代 处 理 语法 ， 最 后 介绍 重新 构建 数据 的 几 种 方法 。 


下 一 章 重 点 介绍 如 何 使 用 高 阶 函 数 达到 相同 的 目标 。 






































4.1 函数 分 类 概览 
函数 大 体 可 分 为 以 下 两 类 。 


口 标量 函数 : 作用 于 单个 值 ， 并 返回 单个 值 , 例如 abs () 、pow() 以 及 整个 math 模块 中 的 
函数 都 是 标量 函数 。 
口 集合 函数 : 作用 于 可 迭代 集合 。 
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集合 函数 又 可 以 细 分 为 以 下 三 类 。 


口 归 约 : 通过 指定 函数 将 集合 内 元 素 汇聚 在 一 起 ， 生 成 单个 值 作为 结果 。 例 如 通过 加 法 运 
算 可 以 得 到 集合 内 数据 的 和 。 由 于 这 类 函数 总 是 以 集合 为 输入 ， 返 回 单个 累积 值 ， 所 以 
也 称 为 累积 函数 。 

口 映射 : 将 标量 函数 作用 于 集合 的 每 个 元 素 ， 作 为 结果 返回 的 集合 与 输入 集合 长 度 相同 。 

口 过 滤 : 将 标量 函数 作用 于 集合 的 每 个 元 素 ， 保 留 其 中 一 部 分 元 素 ， 侈 弃 另 一 部 分 元 素 ， 
返回 的 集合 是 输入 集合 的 子 集 。 


本 章 将 在 此 概念 框架 内 介绍 使 用 内 置 集合 函数 的 方法 。 
























































4.2 使 用 可 和 迭代 对 象 


前 面 讲 过 在 Python 中 处 理 集合 时 , 经 常 使 用 for 循环 语句 。 当 处 理 实例 化 了 的 集合 数据 ( 例 
如 元 组 、 列 表 、 映 射 与 set ) 时 ，for 循环 中 包含 了 显 式 的 状态 管理 。 虽 然 这 种 用 法 不 符合 函数 
式 编程 的 原则 ， 但 反映 出 它 是 Python 的 一 种 必要 的 优化 手段 。 如 果 能 保证 状态 管理 只 用 于 for 
语句 对 应 的 迭代 器 对 象 ， 就 可 以 在 不 过 分 偏离 纯粹 的 函数 式 编程 原则 的 前 提 下 利用 这 一 语言 特 
性 。 如 果 在 for 循环 体外 部 使 用 循环 变量 ， 就 背离 了 函数 式 编程 的 原则 。 


第 6 章 将 深入 探讨 该 话题 ， 这 里 只 使 用 生成 器 简单 给 出 该 问题 的 一 个 例子 。 










































































for 循环 迭代 处 理 常 用 于 unwrap (process (wrap(iterable) ) ) 设 计 模式 。wrap () 函数 将 
原始 可 迭代 对 象 中 的 每 个 元 素 转换 为 一 个 二 元 组 ， 其 中 第 一 个 元 素 是 用 于 排序 的 键 或 者 其 他 数 
值 ,第 二 个 元 素 是 原来 不 可 变 的 输入 数据 。 接 着 基于 前 面 打 包 的 结果 处 理 数 据 。 最 后 使 用 unwrap () 
函数 拆 分 处 理 后 的 元 组 ， 售 弃 打 包 数 值 ， 保 留 处 理 结果 。 


在 函数 式 语 境 下 上 述 操作 十 分 频繁 ， 因 此 定义 如 下 两 个 函数 : 

fst 

snd 

这 两 个 函数 从 元 组 中 分 别 取出 第 一 个 元 素 和 第 二 个 元 素 ， 在 process () 函数 和 unwrap () 
函数 中 经 常用 到 。 


另 一 个 常用 的 模式 是 wrap3 (wrap2 (wrapl() ) ) 。 这 种 情况 下 ， 我 们 从 简单 的 元 组 开始 ， 
加 入 后 续 计 算 结 果 , 打包 成 新 的 元 组 ， 从 而 形成 更 大 也 更 复杂 的 元 组 。 该 设计 模式 的 一 个 变 体 是 
基于 源 对 象 创建 新 的 、 更 复杂 的 命名 元 组 实例 。 这 两 种 模式 都 属于 生长 设计 模式 。 


生长 设计 模式 的 一 个 应 用 是 处 理 经 纬度 数值 。 处 理 过 程 的 第 一 步 是 将 路 径 上 的 点 (lat,， lon) 
转换 为 路 径 段 (begin，end) ， 计 算 结果 表示 为 : ((lat，1lon)，(lat，1lon) ) 。 对 集合 中 的 
每 个 元 素 ， 用 fst (item) 获取 起 点 值 ， 用 snd (item) 获取 终点 值 。 






































lambda x: x[0] 
lambda x: x[1] 
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稍 后 演示 如 何 创 建 一 个 生成 器 函数 遍历 输入 文件 中 的 数据 , 将 后 面 需要 处 理 的 原始 数据 保存 
到 可 迭代 对 象 中 。 


获得 原始 数据 后 ， 将 演示 如 何 计算 某 段 路 径 的 半 正 矢 距 离 。 经 wrap (wrap (iterable())) 
处 理 后 ， 数 据 变 成 一 个 三 元 组 序列 : ((lat，1lon)，(lat，1lon)，dqistance)， 这 样 就 可 以 
计算 最 长 距离 、 最 短 距 离 、 外 接 矩 形 及 其 他 数据 汇总 值 了 。 




















4.2.1 解析 XML 文件 


首先 通过 解析 一 个 XML ( Extensible Markup Language ) 文件 获得 原始 经 纬度 数据 。 该 过 程 
展示 封装 Python 中 不 那么 函数 式 的 一 些 语 言 特征 ,来 生成 一 组 可 迭代 序列 的 方法 。 


借助 xml .etree 模块 , 解析 后 返回 的 ElementTree 对 象 通过 finqal11) 方 法 遍历 处 理 后 
的 数据 。 


竺 处理 的 目标 数据 的 XML 代码 如 下 所 示 : 


<Placemark><Point> 

<coordinates>-76.33029518659048,， 
37.54901619777347,0</coordinates> 

</Point></Placemark> 


该 文件 包含 多 个 <Placemark> 标 签 ， 每 个 这 样 的 标签 中 又 包含 点 和 坐标 结构 体 ， 这 是 包含 
地 理 位 置信 息 的 KML (Keyhole Markup Language ) 文件 的 典型 格式 。 


解析 XML 文件 的 方法 可 以 抽象 为 两 个 层次 ， 底层 方法 负责 定位 各 种 标签 、 属 性 值 以 及 文档 
内 容 ， 上 层 方法 负责 从 文本 和 属性 值 中 抽取 有 用 的 对 象 。 


底层 处 理 方法 如 下 所 示 : 


import xml.etree.ElementTree as XML 

from typing import Text, List, TextIO, Iterable 

def row_iter_ kml (file_ obj: TextIO) -> Iterable[List[Text]]: 
ns_map = { 
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"ns0": "http://ww.opengis.net/kml/2.2", 
"nsl": "http://ww.google.com/kml/ext/2.2"} 
path_ to points= ("./ns0:Document/ns0:Folder/ns0:Placemark/" 


"ns0:Point/ns0:coordinates") 
doc = XML.parse (file_obj) 
return (comma_split (Text (coordinates.text)) 
for coordinates in 
doc.findall (path_ to_ points, ns_map)) 


函数 以 with 语句 中 文件 对 象 的 文本 为 输入 ， 返 回 结果 是 基于 经 纬度 数值 对 创建 的 生成 器 ， 
用 于 生成 包含 数据 的 列表 对 象 。 解 析 XML 文件 的 过 程 中 ， 该 函数 包含 一 个 简单 的 静态 字典 对 象 
和 ns_map 对 象 ， 提 供 作为 搜索 目标 的 XML 标签 的 命名 空间 映射 信息 ， 字 上 典 对 象 则 供 负责 处 理 
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XML 文件 的 ElementTree.findall () 方 法 使 用 。 





























解析 的 主体 是 一 个 生成 器 函数 ， 通 过 doc .findall () 方 法 定位 一 系列 标签 ， 这些 标签 作为 
comma_split () 函数 的 参数 ， 把 目标 文本 转换 为 一 组 以 逗号 分 隔 的 序列 值 。 


其 中 的 comma_split () 是 字符 串 split () 方 法 的 函数 版 本 ， 具 体 实 现 如 下 : 
def comma_split (text: Text) -> List [Text] : 
return text.split(",") 

通过 将 对 象 方法 包装 为 前 缀 式 函 数 , 保证 了 语言 风格 的 统一 。 另 外 通过 添加 类 型 标示 ， 明 确 
指出 函数 将 文本 转换 成 了 由 文本 值 组 成 的 列表 。 如 果 没 有 类 型 标示 , 将 会 有 两 个 不 同 的 split () 
潜在 实现 : 分 割 字 节 数 组 的 和 分 割 字符 串 的 。 在 Python 3 中 ， 类 型 Text 是 str 的 别名 。 

函数 的 返回 结果 是 由 行 数据 组 成 的 可 迭代 序列 ,每 行 包含 3 个 字符 串 , 分 别 代 表 路 径 上 一 个 
点 的 经 度 、 纬 度 和 海拔 高 度 。 至 此 ， 数 据 仍 不 可 用 , 需要 进一步 抽取 经 度 值 和 纬度 值 ， 并 把 它们 
转换 为 浮 点 数 。 


底层 解析 方法 将 原始 数据 转换 为 可 迭代 元 组 (或 者 序列 )， 使 得 我 们 能 以 相对 简单 一 致 的 方 
法 处 理 数据 文件 。 第 3 章 介 绍 了 如 何 将 CSV ( comma separated values， 逗 号 分 隔 值 ) 文件 转换 为 
元 组 序列 。 第 6 章 将 详 述 该 话题 ， 介 绍 不 同 的 解析 方法 。 

上 面孔 数 的 解析 结果 如 下 所 示 : 
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[I6533029518659048", "3 .04901619777347",. “0™ Ts 
上 
下 
etc 。 
I"=64T7350299999999 ”38.9763347 “0."1] 

每 一 行 是 <ns0 :coordinates> 标 记 文本 经 其 中 的 逗号 分 隔 之 后 得 到 的 列表 ， 包 括 东 西向 经 
度 、 北 南 向 续 度 及 海拔 高 度 。 稍 后 将 继续 创建 函数 来 处 理 这 些 计 算 结果 , 以 得 到 最 终 可 用 的 数据 。 


4.2.2 ”使 用 高 级 方法 解析 文件 


完成 了 底层 解析 语法 后 ， 就 可 以 将 原始 数据 重 构 为 Python 程序 可 用 的 形式 。 这 类 结构 化 方 
法 适用 于 XML 、JSON 、CSV 以 及 其 他 多 种 序列 化 数据 的 物理 格式 。 


我 们 的 目标 是 编写 一 组 生成 器 函数 ， 将 数据 解析 为 应 用 可 用 的 形式 。 生 成 器 函数 对 
row_iter_kml () 函数 搜索 到 的 文本 执行 一 些 简单 的 转换 ， 如 下 所 示 : 


口 舍弃 海拔 高 度 属性 ， 保 留 经 度 和 纬度 属性 ; 
口 改变 顺序 ， 将 (longitude，1latitude) 改 为 (latitude, longitude)。 


下 面 的 辅助 函数 可 以 将 这 两 次 转换 表示 为 一 致 的 语法 形式 : 
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def Pick_ lat_1on( 
lon: Text, lat: Text, alt: Text) -> Tuple[Text, Text]: 
return lat, lon 


这 里 创建 了 一 个 接收 三 个 参数 的 函数 , 基于 其 中 两 个 创建 了 二 元 组 。 其 中 的 类 型 标示 比 函 数 
本 身 还 复杂 。 


如 下 所 示 使 用 该 函数 : 


from typing import Text, List, Iterable 





Rows = Iterable[List[Text]] 

LL_Text = Tuple[Text, Text] 

def lat_lon kml (row_iter: Rows) -> Iterable[lLL Text]: 
return (pick_lat_lon(*row) for row in row_iter) 


该 函数 将 pick_1at_lon () 因数 应 用 于 源 数据 的 每 一 行 ，*row 参数 负责 将 每 个 三 元 组 转换 


为 三 个 独立 的 值 作为 pick_lat_lon () 函数 的 参数 ， 这 个 函数 再 从 每 个 三 元 组 中 抽取 数据 并 重 
新 排序 。 


为 了 简化 函数 定义 ,我 们 创建 了 两 个 类 型 别名 :; Rows 和 LL_Text。 类 型 别名 既 可 以 简化 函 
数 定义 ， 又 可 以 复 用 于 其 他 函数 ， 确 保 它 们 能 处 理 相同 类 型 的 对 象 。 


这 种 函数 设计 模式 允许 后 续 蔡 换 其 中 任何 函数 ,以 此 简化 代码 重 构 。 可 以 通过 为 不 同 的 函数 
提供 多 种 实现 方法 来 达到 这 个 目标 。 原则 上 , 高 质量 的 函数 式 语言 编译 器 也 会 在 优化 过 程 中 执行 
替换 操作 。 


接 下 来 组 合 上 述 函 数 ， 解 析 数据 文件 ， 构 建 可 用 的 数据 结构 ， 如 以 下 代码 所 示 : 


Url = "file:./Winter%202012-2013.kml" 
with urllib.request.urlopen (url) as source: 
V1l= tuple(lat_lon kml (row_iter_ kml (source))) 
print (v1) 
其 中 用 urllib 命令 打开 的 数据 源 是 一 个 本 地 文件 ， 也 可 以 用 它 打 开 远 端 服 务 器 上 的 KML 
文件 。 使 用 这 种 文件 打开 方式 旨 在 确保 不 论 数据 源 如 何 ， 都 能 以 统一 的 方式 打开 。 


这 个 脚本 基于 两 个 函数 实现 对 KML 文件 的 底层 解析 , row_iter_kml (source) 函数 生成 一 
个 文本 序列 ，lat_lon_kml () 函数 抽取 经 度 值 和 纬度 值 并 重新 排序 。 这 样 就 为 后 续 处 理 提供 了 
中 间 结 果 ， 保 证 原始 数据 格式 不 影响 后 续 处 理 流 程 。 


运行 上 述 代码 ， 可 得 到 如 下 结 


















































(C("37. .54901619777347", "=70.33029518659048.")., 
(C3376840832" "706a273833999999.995) 3 
(382331501, “=706%459503°Y)y 
(3030L60, “T7606n4S8S04); 

( 


385970334Y wv ST6r4/3502999999993),) 
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这 样 就 从 复杂 的 XML 文件 中 ,采用 基本 纯 函 数 的 方式 解析 出 了 经 度 值 和 纬度 值 。 由 于 生成 
结果 是 可 迭代 的 ， 后续 可 使 用 函数 式 编程 技术 处 理 从 文件 中 得 到 的 每 个 点 。 


至 此 ， 就 分 别 实现 了 底层 的 XML 解析 函数 和 上 层 的 数据 处 理 函 数 。 解 析 XML 后 生成 的 是 
一 组 字符 串 元 组 ， 与 CSV 解析 器 生成 的 结果 格式 兼容 ,之 后 从 SQL 数据 库 中 获取 数据 时 ， 返 回 
的 结果 也 是 类 似 的 ， 这 样 就 保证 了 上 层 处 理 函数 能 以 相同 的 方法 解析 不 同 来 源 的 数据 。 

下 面 将 通过 一 系列 方法 把 一 组 字符 串 转换 为 沿 着 一 条 路 径 的 一 系列 数据 点 该 过 程 包 含 多 次 
转换 ， 既 要 重组 数据 ,还 要 把 字符 串 转换 为 浮 点 数 。 我 们 还 会 介绍 简化 和 明晰 后 续 处 理 步 又 的 方 | 
法 ， 后 续 音节 会 继续 使 用 这 些 数据 ， 因 为 它们 特别 复杂 。 



































4.2.3 组 对 序列 元 素 


将 点 序列 重组 为 “开始 -结束 ”对 组 成 的 序列 ， 是 常用 的 数据 处 理 步 又: 根据 已 有 序列 
5S = {50,51,5;,…,5,} ， 生 成 对 序列 $= fs Go) (Cs 1,53,)} 。 源 数据 中 的 第 一 个 元 素 
和 第 二 个 元 素 组 成 第 一 对 ， 第 二 个 元 素 和 第 三 个 元 素 组 成 第 二 对 ， 以 此 类 推 。 进 行 时 域 分 析 时 ， 
往往 要 合并 间隔 很 大 的 数据 ， 但 这 里 合并 相 邻 的 数值 就 行 了 。 


有 了 对 序列 ， 就 可 以 利用 haversine 函数 计算 出 每 对 中 两 点 间 的 距离 ， 在 地 理 位 置 应 用 中 
常用 这 项 技术 把 一 条 路 径 上 的 点 转换 为 一 系列 线段 。 


为 什么 将 序列 元 素 组 对 ， 而 不 做 如 下 处 理 : 


begin = next (iterable) 
for end in iterable: 

compute_something (begin, end) 

begin = end 
显然 ， 这样 也 可 以 将 每 段 数据 作为 一 个 “开始 -结束 ”对 来 处 理 ， 但 这 种 方式 将 处 理 函数 和 
重组 数据 的 循环 紧密 绑 定 在 一 起 了 , 使 得 代码 难以 复 用 。 由 于 与 compute_something () 函数 绑 
定 在 一 起 ， 算 法 很 难 单独 测试 组 。 


这 种 组 合 方式 也 使 得 开发 者 难以 修改 应 用 的 配置 ， 无 法 简单 地 用 其 他 实现 代替 compute_ 
something () 函数 。 另 外 ， 显 式 状 态 和 pegin 变量 的 存在 使 得 未 来 可 能 的 重 构 复杂 化 了 。 当 我 
们 想 在 循环 体 中 增加 新 特性 时 ， 如 果 去 掉 其 中 某 个 点 ,很 可 能 导致 pegin 变量 设置 错误 ,包含 
if 语句 的 filter () 函数 也 会 导致 begin 变量 更 新 出 现 故 障 。 


为 了 保证 代码 可 复 用 ， 需 要 把 这 个 简单 的 组 对 函数 独立 出 来 。 长 远 来 看 ， 这 符合 设计 目标 : 
把 有 用 的 基础 函数 (例如 这 里 的 组 对 函数 ) 放 在 单独 的 库 里 ， 便 于 我 们 更 快 、 更 有 把 握 地 解决 遇 
到 的 问题 。 


有 很 多 种 方法 可 以 把 一 条 路 径 上 的 所 有 点 处 理 成 “开始 -结束 ”形式 ， 下 面 介绍 其 中 几 种 方 
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法 ,第 5 章 和 第 8 章 会 基于 纯 函数 风格 以 递归 方式 实现 组 对 。 
沿 着 一 条 路 径 依 次 将 各 个 点 组 对 的 一 个 版 本 如 下 : 


from typing import Iterator, Any 
Item Iter = Iterator[Any] 
Pairs_Iter = Iterator[Tuple[float, floatl]] 
def pairs(iterator: Item Iter) -> Pairs_Iter: 
def pair_from( 
head: Any, 
iterable tail: Item Iter) -> Pairs_Iter: 
nxt= next (iterable_ tail) 
yield head, nxt 
yield from pair_from(nxt, iterable tail) 





Ins 
return pair_ from(next (iterator), iterator) 

except StopIteration: 
return iter([]) 


其 核心 部 分 是 内 部 函数 pair_from() ， 它 的 参数 是 可 迭代 对 象 的 第 一 个 元 素 和 它 自 身 。 首 
先 从 第 二 个 参数 ， 即 可 迭代 对 象 中 拿 出 头 元 素 ,， 与 第 一 个 参数 组 成 一 对 作为 结果 返回 ， 再 递归 调 
用 自身 ， 返 回 剩余 的 数据 对 。 
























































类 型 标示 要 求 参 数 iterato 的 类 型 是 Item_Iter， 返回 结果 的 类 型 是 Pairs_Iter， 即 
元 素 类 型 为 float 的 二 元 组 组 成 的 迭代 器 。mypy 工具 通过 检查 类 型 标示 确保 代码 可 以 正常 运行 。 
类 型 标示 是 在 typing 模块 中 定义 的 。 
输入 必须 是 实现 了 next () 函数 的 迭代 器 ， 为 了 处 理 集合 数据 ， 需 要 使 用 iter () 函数 显 式 
地 将 集合 转换 为 迭代 器 。 


pairs() 函数 内 调用 了 pair_from() 函数 ，pairs() 人 负责 从 参数 中 得 到 初始 值 。 当 输入 参 
数 是 空 迭 代 带 时 ，next () 函数 的 第 一 次 调用 将 生成 一 个 StopIteration 异常 ,然后 返回 一 个 
空 的 可 迭代 对 象 。 





















































Python 的 迭代 递归 使 用 for 循环 处 理 数 据 并 从 递归 中 返回 结果 。 如 果 使 用 看 上 
去 更 简单 的 return pair_from(nxt，iterable tail) 方 法 ， 你 会 发 现 它 不 
能 正确 地 处 理 可 迭代 对 象 并 返回 所 有 值 。 生 成 器 函数 中 的 递归 需要 使 用 yielgd 从 

人 可 和 迭代 对 象 中 获取 结果 ， 这 里 使 用 的 是 yielq from recursive iter(args)。 
如 果 改 用 return recursive_iter(args)， 将 会 返回 生成 器 对 象 ， 而 不 是 对 
函数 求 值 并 返回 生成 的 结果 。 


如 果 和 希望 使 用 尾 调用 优化 ， 可 以 用 生成 器 表达 式 代替 递归 ,用 for 循环 优化 递归 ， 下 面 的 
函数 是 沿 着 路 径 依次 组 对 的 另 一 个 版 本 : 
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from typing import Iterator, Any, Iterable, TypeVar 


TT = "Tpevar( tT .) 
Pairs_Iter = Iterator [Tuple[T_ , T_]] 
def legs(lat_lon_ iter: Iterator[T_]) -> Pairs_Iter: 


begin = next (lat_lon_iter) 

for end in lat_lon_ iter: 
yield begin, end 
begin = end 


这 个 版 本 的 实现 处 理 速度 非常 快 ， 且 不 受 栈 长 度 限制 。 它 可 以 处 理 任 何 类 型 的 序列 ,将 序列 
生成 器 给 出 的 值 组 对 。 由 于 循环 体内 部 没有 处 理 函 数 ， 需 要 时 即 可 复 用 legs () 函数 。 

通过 Typevar 函数 定义 的 类 型 变量 T_ 用 于 准确 描述 1egs ( ) 函数 重组 数据 的 方式 。 类 型 标 
示 指 出 输入 类 型 决定 了 输出 类 型 。 输 入 类 型 是 某 种 类 型 T_ 组 成 的 迁 代 器 ， 与 输出 元 组 的 元 素 类 
型 必须 一 致 ， 并 且 不 涉及 其 他 转换 。 

begin 和 send 变量 保存 计算 状态 ,使 用 有 状态 变量 不 符合 函数 式 编程 尽量 使 用 不 可 变数 据 
的 要 求 ， 因 此 需要 进一步 优化 。 此 外 ， 它 对 函数 的 使 用 者 是 不 可 见 的 ， 是 一 种 Python 式 混合 实 
现 风格 。 

该 函数 能 生成 如 下 对 序列 : 

Tat EQS :11 [12]; TLSEL23]y. ssi iB] 

该 函数 的 功能 也 可 表示 如 下 : 

Zip.(liet;, ListtL:]) 


最 后 这 种 表达 方式 虽然 很 直观 , 但 只 能 用 于 序列 对 象 , 而 1egs () 和 pairs () 函数 适用 于 任 
何 可 迭代 对 象 ， 包 括 序列 对 象 。 















































4.2.4 显 式 使 用 itezr() 函数 


在 纯粹 的 函数 式 语 境 中 , 递归 冰 数 处 理 所 有 可 迭代 对 象 , 状态 只 存在 于 递归 调用 栈 中 。 在 实 
践 中 ，Python 的 可 迭代 对 象 往往 涉及 对 其 他 for 循环 的 求 值 。 有 两 种 常见 的 场景 : 集合 和 可 和 迭 
代 对 象 。 当 用 于 集合 时 ， 由 for 语句 创建 迁 代 器 对 象 ; 当 用 于 生成 器 函数 时 ， 生 成 器 函数 本 身 
就 是 迭代 器 ， 自 己 维护 内 部 状态 。 在 Python 编程 的 大 多 数 实践 中 ， 二 者 作用 相同 ， 但 在 某 些 特 
殊 情 况 下 ， 例 如 需要 显 式 使 用 next () 函数 时 ， 二 者 的 用 法 并 不 相同 。 


前 面 的 legs () 函数 使 用 了 显 式 的 next () 方 法 从 可 迭代 对 象 中 取 值 。 对 于 可 迭代 对 象 ， 包 
括 生成 器 函数 和 生成 器 表达 式 , 使 用 这 个 函数 完全 没有 问题 , 但 对 于 序列 对 象 , 例如 元 组 和 列表 ， 
不 能 用 这 个 函数 。 


下 面 3 个 例子 说 明了 next () 函数 和 iter () 函数 的 作用 : 
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>>> list(legs(x for x in range(3))) 
[(0, 1), (1, 2)] 
>>> list(legs([0,1,2])) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 2, in legs 
TypeError: 'list' object is not an iterator 
>>> list(legs(iter([0,1,2]))) 
[(0, 1), (1, 2)] 





第 一 个 例子 中 ，1legs () 函数 的 参数 是 可 迭代 对 象 ， 也 是 生成 器 表达 式 ， 这 种 情况 符合 设计 


目标 ， 数 据 正 确 组 对 ， 将 三 个 位 置 点 转换 为 两 个 路 径 段 。 











第 二 个 例子 尝试 将 序列 用 作 legs () 函数 的 参数 ,结果 发 生 了 错误 。 虽然 在 for 语句 中 列表 
对 象 和 可 迭代 对 象 的 用 法 是 一 样 的 ,但 这 并 不 适用 于 所 有 场景 ,序列 不 是 迭代 咒 ,不 能 用 作 next () 





























函数 的 参数 ，for 语句 为 了 处 理 这 两 类 情形 ， 自 动 基于 序列 创建 了 一 个 迭代 顺 。 

















对 于 第 二 种 情形 ， 需 要 显 式 地 基于 列表 对 象 创建 一 个 迭代 器 ， 这 样 legs ( ) 函数 就 可 以 通过 








迭代 器 获取 列表 中 的 第 一 个 值 了 。iter () 函数 负责 将 列表 转换 为 迭代 器 。 
4.2.5 扩展 简单 循环 

















对 简单 循环 的 扩展 包括 两 种 情况 。 首 先 介绍 过 滤 式 扩展 , 这 种 扩展 能 够 按照 某 种 标准 舍弃 数 
据 源 中 的 某 些 数据 ,这 些 数 据 可 能 是 异常 值 ,或 者 存在 格式 错误 。 第 二 种 情况 是 简单 转换 原始 数 
据 , 在 原 有 对 象 的 基础 上 创建 新 的 对 象 。 这 里 是 要 将 字符 串 转 换 为 浮 点 数 。 不 过 如 何 通过 映射 扩 









































展 简单 循环 要 看 具体 情况 。 下 面 介绍 重 构 pairs () 函数 的 方法 ， 如 果 想 调整 点 的 顺序 并 舍弃 某 








些 值 ， 应 该 怎么 做 呢 ? 可 以 使 用 过 滤 式 扩展 筛选 数据 。 


在 之 前 循环 体 的 实现 中 , 为 了 将 复杂 度 降 到 最 低 ， 仅 仅 返回 了 数据 对 ,没有 其 
辑 相关 的 处 理 。 实 现 的 简洁 避免 了 开发 者 在 复杂 的 状态 变换 中 迷失 方向 。 


为 循环 添加 过 滤 式 扩展 的 一 种 实现 方案 如 下 : 


from typing import Iterator, Any, Iterable 
Pairs_Iter = Iterator[Tuple[float, floatl]] 
LL_Iter = Iterablel 
Tuple[lTuplel[lfloat, float], Tuplel[lfloat, float]]] 
def legs_filter(lat_lon iter: Pairs_Iter) -> LL Iter: 
begin = next (lat_lon iter) 
for engd in lat_lon_iter: 
if #some rule for rejecting: 
continue 
yield begin, end 
begin = end 
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何 应 用 逻 


这 样 在 循环 体 中 添加 了 筛选 规则 来 滤 掉 某 些 值 , 在 保持 循环 简洁 明了 的 前 提 下 ,处理 过 程 能 
人 够 按照 预期 进行 。 另 外 ， 由 于 该 函数 可 以 处 理 任何 可 迭代 对 象 ， 而 不 必 考 虑 数据 对 的 具体 用 途 ， 
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为 它 编 写 测试 用 例 也 很 简单 。 
这 里 没有 实现 #some rule for rejecting 部 分 的 代码 ， 这 部 分 用 于 通过 begin、end 或 
者 二 者 结合 过 滤 掉 某 些 无 效 数据 。 例 如 需要 过 滤 掉 pegin == end， 以 免 出 现 长 度 为 0 的 线段 。 
接 下 来 的 重 构 工 作 是 为 循环 添加 映射 。 在 应 用 功能 、 设 计 日 标 不 断 变化 的 过 程 中 , 经常 需要 
加 入 映射 。 这 里 的 原始 数据 是 字符 串 类 型 的 , 需要 将 它们 转换 为 浮 点 数 以 备 后 用 。 这 个 转换 本 身 
不 复杂 ， 展 示 了 这 种 扩展 的 实现 方法 。 















































下 面 的 示例 把 生成 右 函 数 包 豆 在 生成 带 表达 式 中 ， 实 现 了 数据 映射 。 Ca 
GEL: Enst.( 
legs( 


(float (lat), float (lon)) 
for lat,lon in lat_lon kml (row_iter_ kml] (source)) 





) 


legs () 函数 的 输入 参数 是 一 个 生成 器 表达 式 , 该 生成 器 表达 式 把 使 用 Iat_lon_kml () 的 输 
出 转换 为 浮 点 数 。 或 者 反 过 来 说 : 首先 把 1at_lon_kml () 函数 的 输出 转换 为 浮 点 数 对 ， 再 转换 
为 一 系列 路 径 段 。 


现在 事情 变 得 有 点 复杂 了 , 几 个 函数 层 层 供 套 , 在 数据 生成 器 上 分 别 应 用 了 float () 、legs () 
以 及 tuple()。 对 于 这 类 复杂 的 表达 式 ， 常 用 的 重 构 方法 是 把 生成 器 表达 式 从 实例 化 的 集合 中 
独立 出 来 ， 对 上 述 表 达 式 的 一 种 简化 实现 如 下 : 


flt 
































= ( 
(float (lat), float (lon)) 
for lat,lon in lat_lon kml (row_iter_ kml (source)) 





) 

print (tuple(legs (11_iter)) 

这 里 将 生成 器 函数 赋 给 了 变量 flt , 该 变量 不 是 集合 对 象 , 也 不 是 通过 列表 推导 生成 的 对 象 ， 
只 是 给 生成 器 表达 式 起 了 个 名 字 (flt )， 然 后 在 其 他 表达 式 中 使 用 这 个 名 字 。 


对 tuple() 的 求 值 导致 作为 参数 的 惰性 变量 开始 求 值 ，flt 变量 对 应 的 对 象 只 在 需要 求 值 
的 时 候 才 被 创建 。 


除了 上 面 的 代码 实现 , 还 有 其 他 方法 可 以 实现 重 构 。 数 据 源 经 常 发 生变 化 。 在 上 面 的 例子 中 ， 
lat_lon_kml () 函数 与 其 他 表达 式 紧 密 绑 定 ， 导 致 处 理 其 他 数据 源 时 ， 难 以 复 用 这 个 函数 。 


当 需 要 把 上 面 的 转换 过 程 float () 参 数 化 ， 以 便 之 后 复 用 ， 可 以 基于 生成 器 表达 式 专门 定 
义 一 个 函数 。 下 面 抽取 一 些 处 理 过 程 放 在 单独 的 函数 里 ,来 对 操作 过 程 进行 分 组 这 里 由 于 字符 
串 到 浮 点 数 的 转换 与 数据 源 无 天， 可 以 把 这 个 复杂 的 转换 表达 式 写 入 下 面 的 函数 中 。 
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from typing import Iterator, Tuple, Text, Iterable 
Text_Iter = Iterable[Tuple[lText, Text]] 
LL_Iter = Iterable[Tuple[lfloat, float]l] 
def float_from pair(lat_lon_ iter: Text_Iter) -> LL Iter: 
return ( 
(float (lat), float (lon)) 
for lat,lon in lat_lon iter 





) 


该 函数 对 可 迭代 对 象 每 组 值 的 第 1 个 数据 和 第 2 个 数据 应 用 float () 函数 ,把 原始 数据 转换 
浮 点 数组 成 的 二 元 组 ， 这 里 借助 了 Python 的 for 语句 解析 此 二 元 组 。 





成 由 





类 型 标示 要 求 输入 是 Text_Iter 类 型 : Text 类 型 二 元 组 组 成 的 可 迭代 对 象 ; 返回 值 是 
LL_Iter 类 型 : 浮 点 数 二 元 组 组 成 的 可 迭代 对 象 。 LL_Iter 类 型 可 以 用 于 其 他 复杂 函数 的 定义 中 。 


该 函数 可 用 于 如 下 场景 : 


legs( 
float_from pair( 
Jat_lon_ kml( 
row_iter_kml (source)))) 











这 样 就 把 KML 文件 中 的 数据 转换 为 浮 点 数 了 。 由 于 每 一 个 处 理 环节 都 是 一 个 简单 的 前 级 式 
函数 ， 可 以 方便 地 可 视 化 整个 过 程 ， 每 个 函数 的 输入 都 是 内 层 嵌 套 函 数 的 输出 。 


解析 过 程 的 输入 值 通常 是 字符 串 , 对 于 数据 处 理应 用 来 说 , 经 常 需要 将 输入 值 转换 为 浮 点 数 、 
整数 、 十 进 制 数 等 类 型 ， 这 时 就 要 在 清洗 源 数据 的 表达 式 中 插入 类 似 于 float_from pair() 的 


原先 字符 串 类 型 的 输出 如 下 所 示 : 























(CCV3755490L6L9777347 "5 761330295186590482) 5 
("37.840832"; "=76.27383399999999"); 
(B38976334"; “E664350299,9.9.9.9:9:9.5)) 





所 需 的 浮 点 型 数据 如 下 所 示 : 


(((37.54901619777347, -76.33029518659048)， 
(37.840832, -76.273834))， 


((38.330166, -76.458504), (38.976334, -76.473503))) 


接 下 来 简化 转换 流程 ， 前 面 把 代码 优化 成 了 flt = ((float (lat), float (lon)) for lat, 
lon in lat_lon_kml () ), 根据 函数 蔡 换 规则 , 可 以 把 类 似 于 ( (float (lat), float (lon)) for 
lat,lon in lat_lon_kml () ) 的 复杂 表达 式 ， 替 换 为 返回 值 相 同 的 函数 ， 这 里 是 float_from_ 
pair(lat_lon_kml())。 这 样 的 重 构 可 以 简化 复杂 的 表达 式 ， 同 时 保证 功能 不 变 。 

















第 5 章 将 继续 讨论 代码 简化 问题 ， 第 6 章 会 介绍 如 何 把 简化 后 的 函数 应 用 于 文件 解析 过 程 中 。 
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4.2.6 将 生成 器 表达 式 应 用 于 标量 函数 


下 面 介绍 如 何 使 用 复杂 的 生成 器 表达 式 转换 数据 类 型 ,以 及 如 何 
建 的 单个 值 。 

这 些 非 生成 器 函数 是 “标量 的 "， 因 为 它们 处 理 的 是 单个 标量 值 。 为 了 处 理 集合 数据 ， 需 要 
把 标量 函数 嵌入 生成 器 表达 式 中 。 


继续 前 面 的 例子 , 首先 创建 haversine 限 数 , 然后 使 用 生成 器 表达 式 将 标量 的 haversine | 
函数 应 用 于 从 KML 文件 中 提取 的 数值 。 


naversine 国 数 的 具体 实现 如 下 : 


from math import radians, sin, cos, sqrt, asin 
from typing import Tuple 














复杂 函数 应 用 于 生成 右 创 


车 











MI 守 : 3959 
NM = 3440 
KM = 6371 


Point = Tuplel[lfloat, float] 
def haversine(pl: Point, p2: Point, R: float=NM) -> float: 
下 起 坊 53 二 着 二 < 下 
A 1 4 
A_lat = radians(lat 2 - lat_1) 
A_lon = radians (lon 2 - lon_ 1) 
lat_1 = radians (lat_1) 
lat_2 = radians (lat_2) 
| 
sin(A_lat / 2) ** 2 + 
E08 (Lat 1) * eos(tlat. 2 * im(ATLTON 2) 
) 
c=2 * asin(a) 
return R * C 


这 个 实现 比较 简单 ， 在 网 上 搜索 一 下 ， 找 到 代码 并 复制 过 来 即 可 。 这 里 给 起 点 、 终 点 和 返回 


值 添加 了 类 型 标示 ， 显 式 类 型 声明 Point = Tuple[float，float] 使 得 mypy 工具 可 以 正确 
地 使 用 函数 。 


下 面 的 代码 演示 了 如 何 使 用 前 面 定 义 好 的 函数 处 理 KML 文件 中 的 数据 ,并 计算 出 距离 序列 : 


em 1 0 
(start, end, round(haversine(start, end), 4)) 
for start, end in 
legs (float_from pair(lat_lon kml())) 











) 


for start, end, dist in trip: 
print (start, end, dist) 


关键 部 分 是 赋 给 trip 变量 的 生成 器 表达 式 。 我 们 用 起 点 、 终 点 以 及 两 点 间 的 距离 组 成 三 元 
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组 ， 其 中 起 点 和 终点 来 自 legs () 函数 ， 用 它 来 处 理 从 KML 文件 中 提取 的 经 纬度 数值 对 转换 而 
来 的 浮 点 数据 。 


计算 结果 如 下 所 示 : 





(37254904161977713475 76533029518659048) (37.5840832;, 371716273834) 17;7246 
0378408327 =76273834) (38.331501; ‘=76w459503) 30,7382 
(38.33150Lr =7X6459503). "(88584550.; =76%5371331) S10756 
(36.8433347 :76.298668;) (37..549; ~76.331169) :42;3.962 

(37.549; :=76.331169) (38.330166, -76.458504) 47.2866 

(38.330166, -76.458504) (38.976334, -76.473503) 38.8019 





这 样 就 简洁 地 定义 了 每 个 处 理 步 骤 。 整 个 处 理 过 程 由 函数 和 生成 器 表达 式 组 成 ,总体 而 言 也 
很 简洁 。 


当然 ,这 里 得 到 的 输出 数据 还 需要 进一步 处 理 ， 比 如 首先 需要 用 字符 串 的 format () 方 法 把 
输出 数据 整理 得 易 读 一 些 。 


更 重要 的 是 , 需要 从 数据 中 提取 一 些 累积 值 ， 即 对 已 有 数据 进行 归 约 。 比 如 可 以 提取 数据 的 
最 大 纬度 值 和 最 小 纬度 值 ， 从 而 得 到 一 条 路 线 的 最 南 点 和 最 北 点 。 或 者 通过 归 约 数据 ， 找 到 路 径 
段 中 最 长 的 距离 ， 或 者 所 有 距离 的 和 。 


使 用 Python 处 理 数据 时 有 个 问题 : trip 变量 只 能 使 用 一 次 ,无 法 对 其 进行 多 次 归 约 ， 而 
itertools.tee() 因数 能 够 多 次 使 用 可 迭代 对 象 ， 毕竟 每 次 归 约 都 要 重新 读 取 并 解析 KML 文件 ， 
成 本 大 高 了 。 


将 中 间 计 算 结果 实例 化 可 以 提高 计算 效率 ， 稍 后 详 述 并 介绍 如 何 对 已 有 数据 进行 多 次 归 约 。 






































4.2.7 用 any() 函 数 和 all() 函 数 进行 归 约 


可 以 使 用 函数 any () 和 al1l () 进行 布尔 归 约 ， 将 一 个 集合 的 元 素 归 约 成 单个 值 ( True 或 者 
False )。al1() 函数 确保 所 有 值 都 是 True，any () 函数 确保 至 少 有 一 个 值 是 True。 


这 两 个 函数 与 数理 逻辑 中 的 全 称 量词 与 存在 量词 密切 相关 , 当 我 们 要 表达 某 个 给 定 集合 中 的 
所 有 元 素 具备 某 一 属性 时 ， 可 以 写成 下 面 的 形式 : 


(Ya ) Prime(x) 


这 个 公式 读 作 : 对 于 someset 集合 中 的 任 一 元 素 x， 函数 Prime (x) 为 真 。 注意 在 逻辑 表达 
式 前 面 添加 的 量词 。 


使 用 Python， 需 要 稍微 调整 逻辑 表达 式 中 各 项 的 顺序 ， 如 下 所 示 : 


all(isprime(x) for x in SomeSet) 
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对 每 个 输入 参数 ( isprime (x) ) 求 值 ， 最 终 将 集合 归 约 为 单个 值 True 或 者 False。 


any () 函数 与 存在 量词 相关 ， 当 我 们 想 确 认 集合 中 没有 元 素 是 质数 时 ， 可 以 使 用 下 面 任 一 表 
达 式 : 








一 (V )Prime(x) = (3,., )—Prime(x) 


第 一 个 公式 表示 : someSet 集合 中 的 元 素 不 都 是 质数 。 第 二 个 公式 表示 : someSet 集合 中 
至 少 有 一 个 元 素 不 是 质数 。 这 两 种 表述 效果 相同 : 如 果 不 是 所 有 元 素 都 是 质数 , 那么 至 少 有 一 个 
元 素 是 非 质 数 。 


略微 调整 一 下 顺序 ， 上 面 公 式 的 Python 版 本 如 下 : 


not all(isprime(x) for x in someset) 
any (not isprime(x) for x in someset) 


二 者 作用 相同 , 差别 在 于 性 能 和 可 读 性 。 又 由 于 二 者 的 性 能 差别 不 大 ,就 只 能 通过 可 读 性 来 
区 分 了 ， 那 么 上 面 哪 种 表述 方式 更 易 读 呢 ? 

all () 函数 对 集合 中 的 所 有 元 素 进行 and 归 约 ,效果 相当 于 在 各 个 值 之 间 加 上 ana 运算 符 。 
类 似 地 ，any () 函数 进行 or 归 约 。 第 10 章 将 继续 介绍 reduce () 函数 。 这 里 没有 最 佳 答案 ， 不 
同 的 读者 对 可 读 性 各 有 偏好 。 

下 面 看 一 下 这 些 函 数 的 退化 形式 ,如 果 作 为 输入 参数 的 序列 的 元 素数 量 为 0 会 怎样 ? al1(() ) 
或 者 a11 (1[]) 的 值 会 是 什么 ? 

如 果 我 们 问 :“ 空 集合 中 的 元 素 都 是 质数 吗 ? ”你 会 怎么 回答 呢 ? 作为 提示 ， 我 们 稍微 拓展 
一 下 ， 看 看 单位 元 的 概念 。 

如 果 我 们 问 :“ 空 集中 所 有 元 素 都 是 质数 ,， 并且 someset 集合 中 所 有 元 素 都 是 质数 吗 ? ”可 
以 把 对 空 集 的 归 约 和 对 someset 的 归 约 放 在 一 起 做 交集 来 解决 这 个 问题 。 

(Yo)Prime(x) A 人 (Vsomeset )Prime(x) 
使 用 集合 的 分 配 律 处 理 上 面 的 ana 运算 符 ， 改 为 两 个 集合 做 并 集 的 形式 ， 再 测试 元 素 是 否 




























































































(V )Prime(x) 


XeQG USomeSet 















































单位 元 ， 与 0 作为 加 法 单位 元 是 一 个 道理 。 
a+0=4a 


类 似 地 ，any ( () ) 一 定 是 or 单位 元 ， 即 False。 由 于 bx1=4b， 可 以 把 1 看 作 乘 法 单位 元 ， 
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所 以 all(0(0)) 一 定 是 True。 


验证 一 下 Python 的 行为 是 否 符合 如 下 规则 : 


>>> all(()) 
True 
>>> any(()) 
False 


可 以 用 Python 的 一 些 工具 处 理 逻 辑 运 算 ， 包括 内 置 的 anda、or 、not 运算 符 ， 及 用 于 集合 
的 any () 、all () 函数 等 。 























4.2.8 使 用 len() 和 sum() 


len() 和 sum() 提供 了 两 种 简单 的 归 约 方法 : 计算 序列 中 所 有 值 的 个 数 和 汇总 值 。 这 两 个 函 
数 在 数学 上 相近 ， 但 在 Python 中 的 实现 方法 却 有 很 大 差别 。 

从 数学 角度 看 ， 这 两 个 函数 的 高 度 相似 性 体现 在 : len () 函数 把 序列 中 每 个 元 素 看 作 1， 然 
后 返回 汇总 值 ， 久 : 忆 ,1= 下 x? ;sum() 函数 则 取 序列 中 每 个 元 素 的 实际 值 ， 然 后 返回 汇总 
值 : X: ee =2 2 

sum() 函数 可 用 于 任何 可 迭代 对 象 ，Len () 函数 不 能 用 于 可 迭代 对 象 ， 只 能 用 于 序列 。 这 种 
实现 方法 上 的 不 对 等 导致 在 某 些 情况 下 ， 开 发 统计 算法 会 遇 到 一 些小 麻烦 。 

对 于 空 序列 ， 两 个 函数 都 返回 加 法 单位 元 0。 


>>> Sum(()) 
0 


虽然 sum( () ) 返 回 整数 0, 但 在 计算 其 他 类 型 的 数值 时 ,整数 0 将 被 强制 转换 为 与 输入 数据 
匹配 的 类 型 。 


4.2.9 使 用 汇总 和 计数 进行 统计 分 析 


基于 函数 sum() 和 len() ， 可 以 给 出 算术 平均 值 的 简单 定义 ， 如 下 所 示 : 


def mean (items): 
return sum(items) / lenl(items) 


虽然 这 个 定义 很 简洁 , 却 不 能 用 于 可 迭代 对 象 ， 只 能 用 于 支持 Ilen ( ) 函数 的 集合 , 这 一 点 通 
过 添加 类 型 标示 很 容易 发 现 。 定 义 mean(items: Iterable) -> float 不 成 立 , 因 为 Iterable 
类 型 不 支持 len () 函数 。 


诚然 ， 对 可 迭代 对 象 即 使 是 求 简单 的 平均 值 或 者 标准 差 都 是 很 困难 的 。 在 Python 中 ,我们 
要 么 实例 化 这 些 序列 对 象 ， 要 么 转 而 使 用 一 些 更 复杂 的 运算 来 完成 求 值 。 
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正确 的 定义 方法 如 下 : 


from collections import Sequence 
def mean(items: Sequence) -> float: 
return sum(items) / lenl(items) 


定义 正确 的 类 型 标示 以 确保 sum() 和 len() 能 正常 工作 。 
下 面 的 定义 用 简洁 的 表达 式 定 义 了 平均 值 和 标准 差 。 


import math 

s0 len(data) # sum(x ** 0 for x in data) 
sl sum(data) # sum(x ** 1 for x in data) 
S2 = sum(x ** 2 for x in data) 

mean = sl / s0 

stdev = math.sgqrt(s2 / s0 - (sl / s0) ** 2) 





s0、sl 和 s2 是 3 种 求 和 , 实现 过 程 都 比较 简单 ,结构 也 类 似 。 通 过 它们 可 以 很 方便 地 算出 
平均 值 。 计 算 标准 差 虽然 稍 复杂 一 些 ， 但 仍然 可 行 。 





更 复杂 的 统计 函数 仍然 具备 这 种 良好 的 对 称 性 ， 包 括 相 关 度 和 最 小 方差 线性 回归 。 
两 个 样本 之 间 的 相关 度 可 以 通过 它们 的 标准 值 计算 出 来 ， 如 下 所 示 : 


def z(x, p_x: float, 


GX, float). = float: 
return (Xx -= Tx) / 


Xx 





计算 过 程 是 对 每 个 样本 x 减 去 平均 值 n_x, 青 除 以 标准 差 o_x, 返回 结果 以 o 为 单位 。 大约 
2/3 的 情况 下 偏差 在 :1c 范围 内 ,偏差 越 大 ， 出 现 的 概率 越 小 ， 超 过 +3o 的 概率 则 小 于 1/100。 
如 下 所 示 使 用 该 标量 函数 : 


$5 加 三 汪 、 人 光 过 7 下 7 二 
>>> list(z(x, mean(d), stdev(d)) for x in d) 
[=L 5 =065.. S035 =0.5; Did0y Od. Td 0] 








这 里 首先 对 变量 a 中 的 值 进 行 归 一 化 ,把 计算 结果 实例 化 到 一 个 列表 中 。 使 用 生成 器 表达 式 ， 
将 标量 函数 z () 应 用 于 序列 对 象 。 


利用 上 面 的 函数 ， 可 以 给 出 函数 mean () 和 stgev () 的 实现 方法 。 


def mean(samples: Sequence) -> float: 
return sl(samples) / s0(samples) 
def stdev(samples: Sequence) -> float: 
N= s0(samples) 
return sqrt((s2(samples) / N) - (sl(samples) / N) ** 2) 


用 类 似 的 方法 ， 如 下 改写 前 面 3 个 求 和 函数 : 


def s0(samples: Sequence) -> float: 
return Sum(1 for x in samples) # or len(data) 
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def sl(samples: Sequence) -> float: 

return sum(x for x in samples) # or sum(data) 
def s2(samples: Sequence) -> float: 

return sum(x * x for x in samples) 


尽管 简洁 明了 , 但 该 实现 仍 无 法 应 用 于 可 迭代 对 象 。 计 算 平 均值 时 ， 需 要 对 可 迭代 对 象 做 一 
次 汇总 和 一 次 计数 。 计 算 标准 差 时 ,需要 做 两 次 汇总 和 一 次 计数 ， 针 对 这 类 统计 相关 的 处 理 ， 必 
须 将 序列 对 象 实例 化 ， 才 能 多 次 使 用 数据 。 


计算 两 个 样本 集 相关 性 的 函数 实现 如 下 : 


def corr(samplesl: Sequence, samples2: Sequence) -> float: 
m1, sl = mean(samplesl1), stdev(samples1l) 
m2, s_ 2 = mean(samples2), stdev(samples2 

















) 
Z 1= (z( x, m1]1, sl1 ) for x in samplesl) 
B22 = (DR M2 2) for x in Sampbles2) 
1 (Sn (2 OE 2 2 TN L(g i ) 


/ lenl(samples1)) 
return r 
上 面 的 相关 性 计算 用 到 了 样本 集 的 基本 统计 特征 值 : 平均 值 和 标准 差 。 基 于 这 些 特征 值 , 我 
们 定义 了 两 个 生成 器 函数 , 计算 每 个 样本 集 的 归 一 值 。 接着 用 zip () 函数 ( 见 下 个 示例 ) 把 两 个 
归 一 化 序列 中 的 元 素 组 对 , 计算 每 对 的 乘积 。 这 个 乘积 序列 的 平均 值 即 表示 两 个 样本 集 的 相关 度 。 


计算 两 个 样本 集 之 间 的 相关 度 如 下 所 示 : 


>>> # Height (m) 

>>> xi = [1.47, 1.50, 1.52, 1.55, 1.57, 1.60, 1.63, 1.65, 

5 1.68, 1.70, 1.73, 1.75, 1.78, 1.80, 1.83,] 

>>> # Mass (kg) 

>>> yi = [52.21,53.12,54.48,55.84,57.20,58.57,59.93,61.29, 
63.11, 64.47, 66.28, 68.10, 69.92, 72.19, 74.46,] 

>>> round(corr( xi, yi ), 5) 

0.99458 


这 里 的 两 个 数据 点 序列 xi 和 yi 的 相关 度 超 过 了 0.99， 表 明 二 者 关系 紧密 。 


以 上 代码 示例 很 好 地 体现 了 函数 式 编程 的 优点 。 我 们 用 几 个 函数 构建 出 了 一 个 简单 易 用 的 统 
计 模 块 ， 且 每 个 函数 只 是 简单 的 表达 式 。 作 为 反例 ， 不 妨 假设 把 corr () 函数 写成 一 个 长 而 复杂 
的 表达 式 , 函数 内 部 有 很 多 只 用 了 一 次 的 内 部 变量 , 用 复制 粘贴 的 方法 把 它们 替换 成 各 自 代 表 的 
表达 式 。 不 难看 出 ， 虽 然 这 里 的 corr () 函数 仅 由 6 行 Python 代码 组 成 ,但 仍 属 于 函数 式 编程 。 










































































4.3 使 用 zip() 函 数 实现 结构 化 和 平 铺 序列 


zip () 函数 将 来 自 多 个 可 迭代 对 象 或 者 序列 的 数据 交叉 组 合 在 一 起 ， 将 带 有 靖 个 元 素 的 可 和 迭 
代 对 象 或 者 序列 转换 为 n 元 组 ,前面 的 例子 用 zip () 函数 将 两 个 样本 集 的 数据 组 合 在 一 起 , 生成 
了 一 个 二 元 组 序列 o 
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0 zip( ) 函数 返回 一 个 生成 器 ， 而 不 会 将 返回 结果 实例 化 


zip() 国 数 的 作用 如 下 : 

5 
人 3] 

7 


» 63% T16447;, 6628 68.100 69927 72 .95 7 生机 6 订 
> LBD(XL, yi) 
<Zip object at 0x101d62ab8> 
S32 LLIet (ZLD(XLy, YE)) 
EOL A B20 2 (LD DD L200 (Lon Se) (1 9 SI) 
Ty DI (LG Sao C03 S903 WT a6Ds c 6229). 
(人 
(8 


zip() 函数 需要 处 理 一 些 特殊 情况 ， 比 如 我 们 需要 知道 下 列 情形 中 它 的 运行 方式 。 
口 如 果 没 有 输入 参数 会 怎样 ? 

口 如 果 只 有 一 个 输入 参数 会 怎样 ? 

口 如 果 作 为 输入 参数 的 序列 长 度 不 一 臻 会 怎样 ? 











对 于 其 他 也 数 ( 例如 any() 、all()、len() 和 sum() 等 )， 我 们 需要 知道 归 约 空 序 列 时 的 
单位 元 是 什么 。 例 如 sum( () ) 返 回 0， 借 助 这 个 概念 可 以 求 得 zip () 函数 的 单位 元 。 


显然 , 每 种 特殊 情况 都 会 生成 某 种 可 迭代 对 象 , 下 面 的 代码 演示 了 这 些 情 况 下 zip () 函数 的 
行为 。 空 输入 参数 的 情况 如 下 : 


>>> zip() 
<Zip object at 0x101d62ab8> 
>>> list(_ ) 


[] 





可 见 没有 输入 参数 的 zip () 函数 返回 一 个 生成 器 函数 , 但 里 面 不 含 任何 数据 项 , 这 符合 输出 
为 可 迭代 对 象 的 要 求 。 
单个 输入 参数 的 情况 如 下 : 


>>> zip((1,2,3)) 

<Zip object at 0x101d62ab8> 
>>> list(_ ) 

[(1,), (2,), (3,)] 


这 种 情况 下 ，zip () 函数 返回 单元 组 序列 ， 也 是 符合 要 求 的 。 
输入 序列 的 长 度 不 同时 zip () 函数 的 行为 如 下 : 


>>> list(zip((1, 2, 3), ('a', 'b'))) 
[(1, 'a'), (2, 'b')] 
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对 于 这 个 结果 ，Python 社区 内 部 存在 争议 , 为 什么 要 截断 ?为 什么 不 用 None 值 填充 较 短 的 
列表 ?作为 zip () 函数 的 替代 ，itertools 模块 的 zip_longest () 函数 满足 上 面 的 要 求 , 第 8 


章 会 介绍 它 。 





4.3.1 将 压缩 序列 解压 
zip () 映射 是 可 以 道 操作 的 ， 也 就 是 解压 ， 下 面 介绍 几 种 解压 元 组 集合 的 方法 。 




















当 数 据 被 多 次 处 理 后 , 就 无 法 将 可 迭代 对 象 组 成 的 元 组 完全 解压 了 。 根据 具体 情 
况 ， 可 能 需要 将 可 迭代 对 象 实例 化 ， 以 提取 需要 的 数据 。 








之 前 讲 过 第 一 种 方法 了 : 使 用 生成 器 函数 解压 元 组 序列 。 例 如 ， 假 设 下 面 的 pairs 是 由 二 元 
组 组 成 的 序列 : 


p0 
DBE 


这 样 就 可 以 得 到 两 个 序列 : p0 序列 由 二 元 组 序列 的 第 一 个 元 组 组 成 ,pl 序列 由 二 元 组 序列 
的 第 二 个 元 素 组 成 。 

某 些 情况 下 , 需要 使 用 for 循环 提供 的 多 重 赋值 方法 来 拆 解 元 组 , 例如 计算 乘积 之 和 的 方法 
如 下 : 


Sum(BO. * Ol for for 0 Dl "nn Darrs:) 


这 里 用 for 语句 把 每 个 二 元 组 拆 解 到 了 p0 和 pl 中 。 


(Sc[0], -fOr TH BalES:) 
(Xi[ LT] fOr RK TI BAaLES) 


| 








4.3.2 平 铺 序 列 
有 时 压缩 后 的 数据 需要 平 铺 成 一 维 序 列 ， 例 如 输入 文件 的 结构 可 能 如 下 所 示 : 


2 3 5 7 11 13 17 19 23 29 
31 37 41 43 47 53 59 61 67 71 





可 以 用 (line.split() for line in file) 生 成 一 个 序列 ， 序 列 的 每 个 元 素 是 文件 中 一 
行 数据 构成 的 十 元 组 。 


得 到 的 数据 结构 如 下 所 示 : 


>>> blocked = list(line.split() for line in file) 

>>> blocked 

ET Sy is LLL Ld Ey ST Tad B97 [1 TY sy 
'41', '43', '47', '53', '59°', '61', '67°', '71'], ['179', '181', '191', 
119377 VL97 STL997 ; T2117 223 T2273. "2295]:1 
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但 这 并 不 是 我 们 想 要 的 最 终结 果 , 我 们 希望 得 到 的 结构 是 一 维 序列 , 但 实际 输入 的 每 个 元 素 
都 是 十 元 组 。 每 次 拆 解 一 个 这 样 的 元 组 则 太 过 麻烦 。 


平 铺 这 类 数据 结构 ， 可 以 使 用 如 下 所 示 的 双 层 生 成 器 表达 式 : 


>>> (x for line in blocked for x in line) 
<generator object <genexpr> at 0xl0lcead70> 
>>> list(_) 
[oy Om MoD TL 13 VET S19 “2 29 TIE 
MT TDM TA3y WAL WSBT “D9 OL Vol TEs 
。] 


第 一 个 for 从 名 从 blockeq 列表 中 解析 出 对 象 ， 每 个 对 象 是 一 个 长 度 为 10 的 列表 ， 赋 给 
line 变量 , 第 二 个 for 从 名 从 line 变量 中 解析 出 字符 串 ， 赋 给 x 变量 ,包含 最 终结 果 的 生成 
器 保存 在 x 变量 中 。 

改写 成 如 下 形式 更 易于 理解 : 

def flatten(data: Iterable[Iterable[Any]]) -> Iterable[Any] : 


for line in data: 
EO 焉 守 这 全 























yield x 


改写 后 可 以 看 到 生成 名 表达 式 的 工作 方式 : 外 层 for 从 名 (for line in data ) 遍历 输 
入 数据 中 的 每 个 十 元 组 ， 内 层 for 从 名 (for x in line ) 遍历 外 层 语句 中 的 每 个 元 素 。 

这 样 双 层 序列 复合 型 结构 就 转换 成 了 单 层 序列 。 它 能 够 将 任何 藤 套 的 双 层 可 迭代 对 象 转换 为 
单 层 可 迭代 对 象 ， 例 如 双 层 列表 、 列 表 - 集 合 组 合 结构 等 。 








4.3.3 结构 化 一 维 序列 
有 时 需要 通过 某 种 形式 将 一 维 序列 转换 为 复合 序列 , 与 前 面 的 处 理 过 程 相 比 ,可 能 更 麻烦 一 
些 。 可 以 用 itertools 模块 的 groupby () 函数 进行 处 理 ， 第 8 章 会 详 述 。 
假设 现 有 如 下 一 个 一 维 列表 
| 


OT MY hl AA A. "Hy 0 /6d M7 TL 
a 








使 用 府 套 生成 器 函数 ,可 以 把 它 从 一 维 序列 转换 为 复合 序列 。 为 了 实现 这 一 点 ， 需 要 一 个 可 
多 次 使 用 的 简单 迭代 器 ， 表 达 式 如 下 所 示 : 


>>> flat_ iter = iter(flat) 
>>> (tuple(next (flat iter) for i in range(5)) 
for row in range(len(flat)//5) 
。 ) 
<generator object <genexpr> at 0xl0lcead70> 
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>>> list(_ ) 

[('2, 3, '5', '7', '11'), 
GELS T9233. "29)s 
(3LYy TOT BAL 443 3 41) 
(2453 VDA GL 67 TE). 

] 


首先 ， 在 双 层 循环 外 部 创建 了 一 个 用 于 生成 复合 序列 的 迭代 器 ， 生 成 器 表达 式 使 用 
tuple (next (flat_iter) for i in range(5))， 基 于 变量 flat_iter 中 的 可 迭代 对 象 创 
建 五 元 组 。 该 表达 式 能 于 外 层 更 大 的 生成 器 内 ， 此 生成 器 负责 按照 指定 次 数 循环 执行 内 层 循环 ， 
生成 最 终 的 复合 序列 。 


该 表达 式 只 适用 于 作为 输入 的 一 维 列表 能 被 子 序列 平分 的 情况 ， 如 果 最 后 一 行 有 剩余 的 元 
素 ， 需 要 单独 处 理 。 











可 以 先 使 用 上 面 的 函数 获得 相同 长 度 的 元 组 ， 然 后 用 下 面 的 函数 处 理 剩余 长 度 不 同 的 部 分 : 


ItemType = TypeVar ("ILtemType" ) 
Flat = Sequence[IlItemType] 
Grouped = List[Tuple[ItemType, ...]] 


def group_by_seq(n: int, sequence: Flat) -> Grouped: 
flat_iter=iter (sequence) 
full_sized_items = list(tuple(next (flat_iter) 
for i in range(n)) 
for row in range(len(sequence)//n)) 
trailer = tuple(flat_iter) 
if' taller 
return full_sized_items + [trailer] 
else: 
return full_sized_ items 





首先 将 长 度 为 n 的 元 组 组 成 的 列表 提取 到 fu11_sized_items 中 ， 如 果 元 素 还 有 剩余 ， 则 
将 剩余 元 素 组 成 一 个 元 组 ,追加 到 full_sizeqd_items 后 面 , 如 果 元 组 长 度 为 0, 则 忽略 trailer 
元 组 ， 返 回 原来 的 列表 。 








类 型 标示 中 包含 了 一 个 类 型 变量 的 抽象 定义 TtemTrype, 用 于 表示 函数 的 输入 类 型 和 输出 类 
型 是 一 致 的 ， 字 符 串 序列 或 者 浮 点 序列 皆 可 。 


函数 的 输入 是 由 数据 项 组 成 的 序列 ,输出 是 一 个 列表 ,元 素 为 相同 类 型 的 数据 项 组 成 的 元 组 。 
这 里 的 数据 项 用 ItemType 表示 ， 可 以 是 任何 类 型 。 


























这 个 实现 不 如 之 前 的 算法 简洁 ,函数 式 特征 也 太 不 明显 。 可 以 把 它 改写 成 一 个 简单 的 生成 器 
函数 ， 生 成 可 迭代 对 象 而 不 是 列表 。 


下 面 的 代码 使 用 while 循环 实现 算法 逻辑 ， 并 结合 了 尾 递归 优化 : 
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ItemType = TypeVar ("ItemType") 
Flat_Iter = Iterator[ItemType] 
Grouped_Iter = Iterator[Tuple[ItemType, ...]] 


def group_ by_iter(n: int, iterable: Flat_Iter) -> Grouped Iter: 
row = tuple(next (iterable) for i in range(n)) 
while row: 
yield row 
row = tuple(next (iterable) for i in range(n)) 


该 函数 从 输入 可 过 代 对 象 中 抽取 指定 长 度 的 行 ， 当 迭代 至 输入 数据 尾部 时 ，tuple (next 
(iterable) for i in trange(n)) 将 会 返回 一 个 空 元 组 ， 这 是 递归 的 基础 型 式 ， 也 是 while 


循环 的 结束 判断 条 件 。 


类 型 标示 相应 地 修改 成 了 包含 迭代 器 的 类 型 ,不 限于 处 理 序列 类 型 .由 于 显 式 使 用 了 next () 
函数 ， 需 要 这 样 使 用 : group_py_iter(7，iter(flat))。 必 须 使 用 iter() 函数 将 集合 转换 
为 迭代 器 。 


























4.3.4 结构 化 一 维 序列 的 另 一 种 方式 
假设 需要 将 下 列 一 维 列表 数据 转换 为 数据 对 : 


flat= 和 下 ee a 了 了 有 ST ER 人 ee 
3 A i A NAR a Ed, NOR la 


可 以 运用 列表 切片 技术 : 
zip(flat[0::2]，flat[1::2]) 


切片 flat [0: :2] 表 示 列 表 中 下 标 为 偶数 的 所 有 元 素 ，flat [1::2] 代 表 列 表 中 下 标 为 奇数 
的 所 有 元 素 。 将 它们 组 合成 二 元 组 ， 其 中 第 一 个 元 素来 自 偶 数 下 标 列 表 ， 第 二 个 元 素来 自 奇 数 下 
标 列 表 。 当 源 列 表 长 度 是 偶数 时 ， 这 个 方法 效果 很 好 。 如 果 长 度 是 奇数 ， 忽 略 最 后 一 个 元 素 ， 稍 
后 会 给 出 解决 方法 。 

这 个 实现 的 一 个 优点 是 简洁 。 对 于 相同 的 问题 ， 前 面 的 实现 用 的 代码 更 多 。 

还 可 以 进一步 抽象 ， 使 用 星 号 参数 语法 ， 创 建 指定 长 度 的 复合 列表 ， 如 下 所 示 : 


zip(*(flat[i::n] for i in range(n))) 









































函数 的 返回 结果 是 n 个 切片 : flat[0::n], flat[1l::n], flat[2::n], ..., flat 
[n-1::n]。 这 些 切 片 作 为 zip() 函数 的 参数 ， 将 各 个 元 素 逐 一 组 合 在 了 一 起 。 

之 前 讲 过 zip () 函数 会 按照 最 短 列 表 进 行 截断 。 在 上 面 的 例子 中 , 如果 列 表 长 度 不 是 分 组 因 
素 n 的 整数 倍 ， 即 len (flat) % n != 0 时 ,最 后 一 个 分 组 的 长 度 将 小 于 前 面 分 组 的 长 度 ， 导 
致 前 面 的 分 组 被 截断 ， 这 不 是 我 们 想 要 的 结果 。 




















62 第 4 章 使 用 集合 





如 果 改 用 itertools.zip_longest () 方 法 ， 最 后 的 分 组 长 度 不 足 的 部 分 会 被 None 值 补 
齐 ， 保 证 所 有 分 组 的 长 度 为 n。 某 些 情 况 下 ， 这 些 补充 值 可 以 接受 ， 而 某 些 情况 下 我 们 不 希望 函 
数 返回 这 些 补充 值 。 


列表 切片 方法 为 解决 一 维 列表 结构 化 问题 提供 了 另 一 种 实现 方式 。 作 为 一 种 通用 实现 方法 ， 
相 比 之 前 的 实现 , 它 的 优点 并 不 明显 。 作 为 将 一 维 列 表 转 换 为 二 元 组 的 实现 方法 , 它 的 最 大 优点 


是 简洁 。 























4.4 使 用 reversed() 函数 改变 顺序 


有 时 需要 反 转 序列 。Python 提供 了 两 种 实现 方式 : 使 用 *everseq () 函数 或 者 使 用 反 序 下 
标 值 。 


例如 ， 假 设 需要 把 一 个 数字 转换 为 16 进 制 数 或 者 2 进 制 数 ， 下 面 是 一 个 简单 的 转换 函数 : 


def digits(x: int, b: int) -> Iterator[int]: 
0 EEN 
yield x % Pb 
for d in digits(x // b, b): 
yield d 


该 函数 使 用 递归 从 最 低 有 效 位 向 最 高 有 效 位 依次 返回 计算 结果 ，x sb 的 值 是 以 b 为 基底 
的 x 值 的 最 低 有 效 位 。 


上 述 算法 可 表示 如 下 : 

















[0] x=0 


dits(t = 
2 a x>0 














多 数 情况 下 , 我 们 希望 返回 的 数值 以 反 序 输出 。 把 上 面 函 数 的 结果 包 庄 在 reversed() 函数 
中 ， 就 可 以 改变 输出 各 位 数字 的 顺序 了 。 


def to_ base(x: int, b: int) -> Iterator[int]: 
return reversed(tuple(digits (x, b))) 





revetsed() 函数 返回 的 是 可 和 迭代 对 象 ， 但 它 的 参数 必须 是 序列 。 函 数 将 源 序列 
中 的 元 素 以 反 序 依次 返回 。 
也 可 以 用 类 似 于 tuple (digits (x，b))[::-1] 的 方式 实现 相同 的 反 序 效果 ,但 切片 不 是 


可 和 迭代 对 象 ， 而 是 从 实例 化 对 象 上 变换 而 来 的 实例 化 对 象 。 这 里 用 到 的 集合 较 小 , 所 以 两 种 实现 
方法 的 区 别 不 大 。 对 于 大 的 数据 集合 ， 使 用 reversed() 函数 的 实现 方法 消耗 内 存 更 少 。 
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4.5 使 用 enumerate() 函数 包含 下 标 值 


Python 的 enumerate () 函数 可 以 为 序列 或 者 可 迭代 对 和 象 添 加 下 标 信 息 ， 实 际 上 可 以 将 其 看 
作 某 种 特殊 形式 的 打包 ， 也 就 unwrap (process (wrap (data)) ) 设 计 模 式 的 一 部 分 。 


使 用 方法 大 致 如 下 所 示 : 


> 

[LA Bs HB, ds 

下 六 从 是 2 人 8 el > i 

>>> Te 

[和 本 仙人 
3 
> 


























Xi 
yy T3527) i (4 57) 
(955.7 Leb) (0 i G3:)]; L650 (8 L680) (9. “Lue)s 
0 i I i (12, Le CED LB (LE, “183 
enumerate () 函数 将 输入 序列 的 每 一 个 元 素 变 为 一 个 二 元 组 , 其 中 第 一 个 元 素 是 下 标 值 ( 序 
号 )， 另 一 个 是 原始 输入 元 素 ， 变 换 过 程 大 致 如 下 : 
zip(range (len(source)), source) 








enumerate() 函数 的 特点 是 返回 结果 是 可 迭代 对 象 ， 并 能 以 任何 可 途 代 对 象 为 输入 值 。 


在 统计 处 理 过 程 中 ， 可 以 使 用 enumerate () 函数 在 每 个 样本 值 前 面 加 序号 ， 将 一 组 简单 值 
转换 为 一 个 时 间 序 列 。 


4.6 ”小 结 
本 章 详 细 介绍 了 Python 的 几 种 内 置 归 约 方法 。 
首先 使 用 any () 或 者 all () 进行 关键 逻辑 处 理 ,实际 上 相当 于 用 or 或 者 ang 运算 符 进 行 归 约 。 


接着 使 用 len () 和 sum () 归 约 数值 , 使 用 这 些 函 数 实现 了 一 些 高 阶 统计 处 理 函 数 。 第 6 章 还 
将 继续 介绍 归 约 。 

然后 介绍 了 Python 内置 的 几 个 映射 函数 。 

zip() 子 数 可 用 于 合并 多 个 序列 。 借 助 该 函数 ， 可 以 结构 化 简单 序列 ,或 者 将 复合 序列 平 铺 
为 一 维 序列 。 之 后 我 们 将 看 到 ， 在 某 些 情况 下 ,复合 数据 易于 人 处理 ; 而 在 男 外 一 些 情况 下 ,一 维 
数据 易于 人 处理 。 

enumerate() 函数 将 可 迭代 对 象 映射 为 二 元 组 序列 。 每 对 二 元 组 中 ,第 一 个 元 素 是 其 下 标 值 ， 
第 二 个 元 素 是 输入 值 本 身 。 

reversed() 函数 按照 相反 顺序 依次 输出 输入 序列 。 有 些 算法 适合 按照 某 个 顺序 给 出 结果 ， 
但 需要 以 相反 的 | pe ， 该 函数 正好 适合 这 种 情况 。 


下 一 章 将 介绍 映射 和 归 约 函数 如 何 通 过 增加 函数 参数 来 定制 它们 的 行为 。 以 函数 作为 参数 的 
函数 ， 是 我 们 最 早 接触 的 高 阶 函数 ， 后 面 还 将 介绍 以 函数 为 返回 值 的 高 阶 函 数 。 
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函数 式 编程 范式 的 一 个 重要 特征 是 高 阶 疯 数 。 高 阶 函 数 指 以 函数 为 参数 , 或 者 以 函数 为 返回 
值 的 函数 。 本 章 介 绍 Python 提供 的 高 阶 函 数 ， 并 进行 一 定 的 逻辑 拓展 。 


高 阶 函数 分 为 以 下 三 


口 输入 参数 中 包含 一 个 或 多 个 函数 的 函数 ; 
口 返回 函数 的 函数 ; 
口 输入 参数 中 包含 函数 ， 返 回 值 也 是 函数 的 函数 ， 即 上 面 两 种 情况 的 结合 。 


Python 提供 了 许多 第 一 类 的 高 阶 函数 , 本章 主要 介绍 这 类 函数 。 后 面 的 章节 会 介绍 几 个 提供 
高 阶 函数 的 库 模块 。 

一 个 函数 的 返回 值 是 另 一 个 函数 , 这 听 上 去 似乎 有 点 奇怪 , 以 callable 类 的 对 象 为 例 ， 当 
函数 的 返回 值 是 一 个 callable 对 象 时 ， 实 际 上 就 是 一 个 函数 返回 了 另 一 个 函数 。 

能 以 函数 为 参数 , 或 者 返回 函数 的 函数 还 包括 复杂 的 callable 类 以 及 函数 装饰 器 。 本 章 会 
涉及 函数 装饰 器 ， 但 详 述 见 第 11 章 。 


前 面 提 到 了 如 果 Python 能 提供 处 理 集合 函数 的 高 阶 版 本 就 好 了 , 本 章 将 介绍 reduce (extract ) 
设计 模式 ， 它 从 大 的 元 组 中 抽取 指定 的 字段 ， 然 后 进行 归 约 。 本 章 最 后 会 介绍 如 何 基于 这 些 常 
的 集合 处 理 函 数 来 自 定义 高 阶 函 数 。 


本 章 会 用 到 下 列 函数 : 





























口 max() 和 min() 
D map () 

DQ filter() 

DQ iter() 

DD sorted() 


本 章 还 会 介绍 用 于 简化 高 阶 函 数 定义 的 匿名 函数 。 
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Python 的 itertools 模块 中 定义 了 很 多 高 阶 函数 ， 第 8 章 和 第 9 章 将 详细 介绍 这 些 函 数 。 


另外 ，functools 模块 提供 了 一 个 通用 的 reduce () 函数 ， 第 10 章 会 讲解 它 。 之 所 以 推迟 
到 第 10 章 ， 是 因为 它 的 适用 场景 不 如 本 章 的 高 阶 函 数 广 。 
函数 max() 和 min () 是 归 约 函数 ， 其 输入 是 集合 ， 输 出 是 单个 值 。 其 他 函数 映射 不 会 把 集 
合 变 为 单个 值 。 
函数 max()、min() 和 sortedq() 有 默认 行为 模式 和 高 阶 行为 模式 ， 其 函数 参数 
通过 可 选 的 key 参数 提供 。 函 数 map () 和 filter () 则 将 映射 函数 作为 第 一 个 
位 置 参 数 。 


5.1 用 max() 通 数 和 min() 函 数 寻 找 极 值 

max () 函数 和 min () 函数 具有 双 面 性 ,它们 可 以 像 普 通 函 数 那样 应 用 于 集合 ,也 可 以 用 作 高 
从 函数 。 

其 默认 行为 模式 如 下 : 

>>> max(1, 2, 3) 

3 


>>> max((1,2,3,4)) 
4 


这 两 个 函数 都 可 以 接收 无 限 多 个 输入 参数 ， 也 可 以 将 一 个 序列 或 者 可 迭代 对 象 作为 单一 输 
入 ， 找 到 其 中 的 最 大 (或 最 小 ) 值 。 

还 可 以 用 它们 做 一 些 更 复杂 的 事 , 以 第 4 章 中 的 旅行 数据 为 例 , 使 用 函数 可 以 生成 如 下 所 示 
的 一 系列 元 组 数据 : 

( 











< 











((37.54901619777347，-76.33029518659048)， (37.840832，-76.273834)，17.7246)， 
((37.840832, -76.273834), (38.331501，-76.459503)，30.7382)， 
C38533L50L; 763459503)% (338845501ly S653733L) yy 3 OIG 
((365843334;): =76:298668);. (375549;: =76533L169); 4253962); 
((37.549, -76.331169), (38.330166, -76.458504), 47.2866),， 
((38.330166y =~76:.458504); (38%976334, -T6473503),; 38:.:8019) 
) 


该 集合 中 的 每 个 元 组 包含 3 个 值 : 起 点 、 终 点 和 距离 ,位 置 数据 由 经 纬度 数据 组 成 。 东 经 为 
正 数 ， 所 以 上 面 这 些 数据 是 美国 东海 岸 的 一 条 路 径 ， 大 约 为 西 经 76*， 距 离 单位 为 海里 。 


可 以 通过 下 面 三 种 方法 ， 从 这 些 数据 中 得 到 最 远 距 离 和 最 近 距 离 。 


口 用 生成 器 函数 提取 距离 值 。 售 弃 每 段 路 径 中 的 其 他 数据 项 ， 只 保留 距离 。 如 果 后 续 有 其 
他 处 理 流程 ， 用 这 种 方法 会 造成 及 烦 。 














66 第 5 章 高 阶 函 数 


出 

















口 使 用 unwrap (process (wrap())) 设 计 模 式 ， 返回 包 含 最 长 距离 和 最 短 距离 的 路 径 段 。 
虽然 这 里 只 用 到 了 上 距离 信息 ， 但 返回 结果 中 包含 了 关于 这 段 路 径 的 完整 信息 。 
口 将 max( es min () 函数 用 作 高 阶 函 数 ， 定 义 函 数 抽取 重要 距离 值 。 


作为 对 照 ， 先 讲 前 两 种 方案 。 下 面 的 脚本 首先 构建 出 旅行 数据 ,然后 用 前 两 种 方法 获得 最 长 
距离 和 最 短 距 离 。 


from ch02_ex3 import ( 
float_from pair, lat_lon kml, limits, haversine, legs 

















) 
path 
trip 


= float_from pair(float_lat_lon(row_ iter kml (source))) 
= tuplel 
(start, end, round(haversine(start, end), 4)) 

for start, end in legs(iter (path))) 


这 段 脚本 中 的 source 是 一 个 包含 数据 点 的 、 打 开 的 KML 文件 对 象 ，trip 对 象 是 包含 各 
个 路 径 段 的 元 组 。 | 段 是 一 个 三 元 组 ， 包 含 起 点 、 终 点 和 通过 haversine () 函数 计算 出 
来 的 距离 。legs () 因数 将 源 KML 文件 中 的 路 径 转 换 为 “起 点 -终点 ”对 。 
得 到 trip 对 象 后 ， 就 可 以 提取 距离 信息 ， 计 算 最 大 值 和 最 小 值 了 ， 代 码 如 下 所 示 : 


>>> long = max(dist for start, end, dist in trip) 
>>> short = min(dist for start, end, dist in trip) 


这 里 使 用 生成 器 函数 从 trip 元 组 中 提取 了 需要 的 数据 。 由 于 每 个 生成 器 表达 式 只 能 用 一 次 ， 
所 以 生成 带 表 达 式 需要 写 两 遍 。 


在 一 个 比 前 面 更 大 的 数据 集 上 运行 得 到 如 下 结果 : 


























~ 
>>> long 
129.7748 
>>> short 
UV..1731 
Eo ee ) ) 设计 模式 实现 。 清 楚 起 抑 ， 把 函数 命名 为 wrap () 和 


unwrap () ， 具 体 实现 和 运 ey 


from typing import Iterator, Iterable, Tuple, Any 


Wrapped = Tuple[lAny, Tuplel] 


def wrap (leg_iter: Iterable[Tuple]) -> Iterable[Wrapped]: 
return ((leg[2], leg) for leg in leg_iter) 
def unwrap(dist_ leg: Tuplel[lAny, Any]) -> Any: 


distance, leg = dist_leg 
return leg 


long = unwrap (max (wrap (trip))) 
short = unwrap (min (wrap (trip))) 


5.2 使 用 Python 匿名 函数 67 





不 同 于 前 一 种 实现 方法 , 这 种 处 理 方式 保留 了 路 径 段 的 完整 信息 : 不 仅 提取 了 上 距离 信息 ， 而 
且 把 距离 作为 包装 元 组 的 第 一 项 ， 然 后 利用 max() 和 min() 的 默认 行为 模式 处 理 包 含 距离 和 路 
径 段 的 元 组 ， 最 后 舍弃 第 一 个 元 素 ， 保 留 路 径 段 信息 。 


结果 如 下 所 示 : 


02211541677 ~80.L95663), “(29:.L195168, ~815002998) 5, L129 7748) 
(59665535 /65936647 全 区 083357 =76.654999).,. O01731) 


最 后 且 最 重要 的 实现 方法 是 使 用 max() 和 min() 的 高 阶 函 数 模式 。 首 先 定义 一 个 辅助 函数 ， 
然后 用 它 递 归 路 径 段 集 合 ， 提 取 需 要 的 信息 ， 代 码 如 下 所 示 : 
def pby_dist(leg: Tuple[lAny, Any, Any]) -> Any: 


lat, lon, dist = leg 
return dist 






































long = max(trip, key=by_dist) 
short = min(trip, key=by_dist) 


函数 by_qist () 拆 开路 径 段 元 组 ， 只 返回 其 中 的 距离 数据 ， 距 离 数 据 后 续 将 用 于 max () 函 
数 和 min () 函数 。 


max() 和 min() 都 接收 一 个 可 迭代 对 象 和 和 一 个 函数 作为 参数 。 在 所 有 Python 高 阶 函 数 中 ， 
都 用 关键 字 参 数 key 来 提取 所 需 的 关键 字 信 息 。 


max () 国 数 对 key 函数 的 使 用 如 下 所 示 : 


from typing import Iterable, Any, Callable 











def max_like(trip: Iterable[Any], key: Callable) -> Any: 
wrap = ((key (leg), leg) for leg in trip) 
return sorted(wrap)[-1][1] 


可 以 理解 为 max () 函数 和 min () 函数 用 key 函数 把 每 一 项 包装 成 一 个 二 元 组 。 将 二 元 组 序 
列 排 序 后 , 第 一 个 值 对 应 包含 最 小 值 的 二 元 组 , 最 后 一 个 值 对 应 包含 最 大 值 的 二 元 组 , 拆 包 后 就 
可 得 到 原始 数据 。 


其 中 的 key () 函数 是 可 选 参数 ， 默 认 值 为 lampda x: x。 


5.2 使 用 Python 匿名 函数 


很 多 情况 下 ， 编 写 辅助 函数 需要 太 多 代码 。key 函数 往往 只 是 简单 的 表达 式 ， 这 时 候 还 需要 
写 gef 和 return 语句 就 太 烦 琐 了 。 

使 用 Python 匿名 函数 有 助 于 简化 高 阶 函 数 的 编写 。 顾 名 思 义 ， 匿 名 函数 是 没有 名 字 的 函数 。 
采用 lampda 形式 ， 函 数 体 只 能 是 简单 的 表达 式 。 
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使 用 1ambda 表达 式 作为 键 的 示例 如 下 : 





long = max(trip, key=lambda leg: leg[2]) 
short = min(trip, key=lambda leg: leg[2]) 


lambda 从 序列 中 获取 输入 。 每 个 1eg 三 元 组 作为 该 匿名 函数 的 输入 。 对 表达 式 1eg [2]1 进 





行 求 值 ， 从 三 元 组 中 提取 距离 数据 。 











理想 状态 下 ， 只 能 使 用 一 次 匿名 函数 , 但 实际 情况 是 经 常 需要 复 用 匿名 函数 。 
不 是 好 办 法 ， 有 什么 别 的 方法 可 以 解决 复 用 问题 吗 ? 

可 以 把 匿名 函数 赋 给 变量 ， 如 下 所 示 : 

Start, cs- Lambda x x1V] 

end = lambda x: x[1] 

dist = lambda x: x[2] 


一 个 匿名 函数 实际 上 是 一 个 可 调用 对 象 ， 可 以 用 作 函 数 。 
在 交互 式 命令 行 中 使 用 匿名 函数 的 示例 如 下 : 




















复制 粘贴 当然 


>>> leg = ((27.154167, -80.195663), (29.195168, -81.002998), 129.7748) 


>>> start = lambda x: x[0] 
>>> end = lambda x: x[1] 
>>> dist = lambda x: x[2] 
>>> dist (leg) 

129.7748 





Python 提供 了 两 种 方法 为 元 组 元 素 命 名 : 命名 元 组 和 匿名 函数 。 二 者 功能 相同 , 可 以 用 匿名 





函数 代替 命名 元 组 。 


在 此 基础 上 ,下 面 介 绍 如 何 从 起 点 和 终点 提取 经 纬度 数据 。 要 实现 这 个 目标 ， 


以 下 代码 接着 前 面 的 交互 式 命令 行 : 


>>> start (leg) 
(27.154167, -80.195663) 


>>> lat = lambda x: x[0] 
>>> lon = lambda x: x[1] 
>>> lat(start (leg)) 
27.154167 








需要 再 定义 一 


与 命名 元 组 相 比 , 使 用 匿名 函数 抽取 字段 的 优势 似乎 并 不 明显 ,而 且 用 一 组 匿名 函数 提取 字 




















段 要 写 的 代码 反而 更 多 。 但 使 用 匿名 函数 让 我 们 可 以 使 用 前 级 式 语法 , 在 函数 式 编程 语 境 中 可 读 




















性 更 好 。 更 重要 的 是 ， 在 后 面 sorted() 的 例子 中 会 看 到 , 在 sorted()、max ( 
中 ， 使 用 匿名 函数 比 使 用 命名 元 组 效率 更 高 。 





和 min() 函数 
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5.3 lambda 与 lambda 算 子 


讨论 纯 函 数 编程 的 书 一 定 会 介绍 lambda 算 子 。 这 项 技术 由 Haskell Curry 发 明 ， 所 以 我 们 称 
它 为 “ 柯 里 化 ”。 但 Python 并 不 特别 依赖 lambda 算 子 ， 函 数 也 不 通过 “ 柯 里 化 ”而 归 约 为 单 参 
数 匿名 子 数 。 


Python 匿名 函数 不 受 单 参数 限制 ， 可 以 有 多 个 参数 ， 但 函数 体 只 能 包含 一 个 表达 式 。 


第 10 章 会 详细 介绍 如 何 使 用 functools .partial 实现 “ 柯 里 化 ”。 




















5.4 使 用 map () 将 函数 应 用 于 集合 


标量 函数 将 数值 从 定义 域 映射 到 值 域 。 例 如 math.sart () 函数 ， 它 将 浮 点 数 x 映射 为 男 一 
浮 点 数 y = sqrt(x)， 并 且 满 足 y=x, 定义 域 是 所 有 正 实数 。 这 里 的 映射 关系 可 以 通过 计算 或 
者 插值 查 表 完成 。 

map () 函数 的 作用 与 之 类 似 : 它 将 一 个 集合 映射 为 另 一 个 集合 ， 保 证 将 输入 集合 中 的 每 个 元 
素 从 定义 域 映射 到 值 域 中 。 这 是 使 用 内 置 函 数 处 理 集 合 的 一 种 理想 方式 。 
第 一 个 例子 是 解析 一 段 文本 ， 获 取 一 系列 数值 。 假 设 现 有 如 下 文本 段 : 


>>> 七 ext= """\ 
















































































31 37 41 43 47 53 59 61 67 71 
.73 79 83 89 97 101 103 107 109 113 
. 127 131 137 139 149 151 157 163 167 173 
. 179 181 191 193 197 199 211 223 227 229 


用 以 下 生成 锅 函 数 重组 这 段 文本 : 


>>> data = list( 
V for line in text.splitlines() 
for v in line.split()) 


首先 把 文本 按 行 拆 分 ， 再 对 每 一 行使 用 空格 进行 二 次 拆 分 ， 绪 果 如 下 所 示 : 


OT a MD i Tl I Og 
"BT tg i A A Hy 9, NOL Om Ain 
0 
VO Ay Yd, DI I VA GT, VEN OO 
MT TT OT To NLR NRT MO ld 克 23 这 
97 “2297] 


现在 需要 对 序列 中 每 个 字符 串 元 素 使 用 int () 函数 ， 可 以 借助 map () 函数 来 实现 ， 如 下 
所 示 : 
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>>> list (map(int, data)) 

[i 7 LB i LO S28 -29 Be Bp dd 
GT BT Ti Td 9 DN LO BO3y LOT E09 L133; L277 ,13 
L371%., -L390 .149 LoL; .LST Os LOT LIB TOSPLBL, LoL; “TE93... LT907s 
E99 Dy 23 ZZYH ZN 





























map () 函数 把 int () 函数 应 用 于 序列 的 每 个 元 素 , 返回 结果 是 数值 列表 , 而 不 是 字符 串 列 表 。 
map () 函数 的 返回 结果 是 可 迭代 对 象 ， 处 理 任 何 类 型 的 可 迭代 对 象 。 











可 以 通过 map () 函数 将 任何 Python 函数 应 用 于 集合 。 很 多 内 置 函 数 可 以 应 用 于 这 样 的 “ 映 
射 -处 理 ” 和 





在 map () 中 使 用 匿名 函数 


假设 现在 需要 把 旅行 数据 中 的 距离 从 海里 转换 为 英里 , 也 就 是 给 每 个 路 径 段 的 距离 字段 乘 以 
6076.12 / 5280， 即 1.150780。 


可 以 使 用 map () 函数 完成 计算 : 


map ( 























lambda. 文生 (start(x}., “end(x) .diSC (XX) “6076as12" 1" 5280); 
trip 
) 


map () 函数 将 作为 参数 的 匿名 函数 应 用 于 旅行 数据 的 每 个 路 径 段 ， 该 匿名 函数 又 会 使 用 其 他 
匿名 es 终点 和 距离 字段 , 最 终 计 算出 以 英里 为 单位 的 距离 值 , 然后 重新 
组 合成 包含 起 点 、 终 点 和 英里 距离 的 元 组 。 

此 过 程 与 下 面 的 生成 带 表 达 式 完全 一 致 : 

((start (x), end(x), dist(x) * 6076.12 / 5280) for x in trip) 
这 样 就 用 生成 器 表达 式 完 成 了 相同 的 处 理 。 
二 者 的 重要 区 别 是 :map () 函数 可 以 复 用 已 有 的 函数 定义 或 者 匿名 函数 ,更 好 的 方法 如 下 所 示 : 


to_miles = lambda x: start (x), end(x), dist(x) * 6076.12 / 5280 
trip_m = map(to_ miles, trip) 


这 种 实现 方式 将 变换 逻辑 to_miles 从 对 数据 的 处 理 过 程 中 分 离 了 出 来 。 


























5.5 使 用 map () 函数 处 理 多 个 序列 


有 时 需要 把 多 个 序列 放 在 一 起 处 理 。 第 4 章 介 绍 过 zip () 函数 可 以 将 两 个 序列 组 合 在 一 起 ， 
生成 新 的 对 序列 ( 二 元 组 序列 )。 很 多 时 候 需要 对 序列 做 如 下 处 理 : 
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map (function，zip(one_iterable，another_iterable) ) 


首先 基于 两 个 可 迭代 序列 创建 新 参数 元 组 ， 在 把 一 个 函数 应 用 于 该 元 组 ， 如 下 所 示 : 





(function (x, y) 


for x, y in zip(one_iterable, another_iterable) 


) 
这 里 用 生成 融 表 达 式 代替 了 map () 函数 。 
抽象 前 面 的 处 理 过 程 ， 如 下 所 示 : 





def star_map (function, *iterables) 


return (function(*args) for args in zip(*iterables)) 





实际 上 ， Python 提供 了 一 个 更 好 的 解决 方案 , 我 们 不 必 运 用 上 面 的 技术 了 。 下 面 举例 说 明 如 
何 使 用 这 个 方法 。 

第 4 章 从 XML 文件 中 提取 了 一 系列 代表 旅行 路 线 的 路 径 点 信息 ， 当 时 需要 基于 这 一 系列 点 
数据 创建 包含 起 点 和 终点 的 路 径 段 。 











使 用 zip () 函数 处 理 可 迭代 对 象 的 一 个 简化 版 本 如 下 : 


>>> waypoints = range(4) 

>>> zip(waypoints, waypoints[1:]) 
<Zip object at 0x101a38c20> 

>>> list(_ ) 

[LEO Ey, “CL, 2) “25. 3) 


这 样 就 基于 一 维 列表 创建 出 了 对 序列 , 每 个 数据 对 包含 相 邻 的 两 个 点 。 较 短 的 序列 元 素 用 完 


之 后 zip() 函数 的 组 合 操作 即 结束 ,zip (x, x[1:]) 模 式 只 能 用 于 实例 化 的 序列 ,以 及 由 range () 
函数 创建 的 可 迭代 对 象 。 








创建 数据 对 以 便 用 haversine () 函数 计算 路 径 上 两 点 间 的 距离 ， 其 实现 方法 如 下 : 


from ch02_ex3 import (lat_lon kml, float_from pair, haversine) 

path = tuple(float_from pair(lat_lon kml ())) 

distances_1 = map( 
lambda s_e: (s_e[0], s_el[1] 
zip(path, path[1:]) 








,， haversine(*s_e)), 


) 




















首先 把 路 径 点 信息 加 载 到 path 变量 中 ,实际 上 是 一 系列 有 序 的 经 纬度 数值 对 。 由 于 下 面 要 
运用 zip (path，path[1:]) 设 计 模 式 ， 所 以 变量 只 能 是 实例 化 的 序列 ， 不 能 是 可 迭代 对 象 。 


zipl 

















函数 的 返回 结果 是 包含 起 点 、 终 点 的 二 元 组 序列 ,而 我 们 需要 的 是 包括 起 点 、 终 点 


让 这 里 的 匿名 函数 从 输入 二 元 组 中 提取 数据 ， 计 算出 距离 后 组 合生 成 三 
元 组 。 
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前 面 提 过 ， 可 以 用 map () 函数 的 高 级 形式 将 这 一 步 简 化 为 : 


distances 2 = mapl( 
lambda s, e: (s, e, haversine(s, e)), 
path, path[1:] 


请 注意 ，map () 函数 的 参数 包括 一 个 函数 和 两 个 可 迭代 对 象 。map () 函数 从 两 个 可 迭代 对 象 
中 分 别 取出 当前 值 , 作为 上 面 函 数 的 输入 参数 。 对 于 本 例 , 这 个 指定 的 函数 是 一 个 返回 包含 起 点 、 
终点 和 距离 的 三 元 组 的 匿名 函数 。 








map () 函数 的 正式 定义 指出 , 它 可 以 使 用 star-map 方法 处 理 任 意 多 个 可 迭代 对 象 。 它 从 每 个 
可 和 迭代 对 象 中 取出 当前 值 ， 作 为 指定 函数 的 参数 。 





5.6 ”使 用 filter() 函 数 接收 或 舍弃 数据 


filter() 函数 的 作用 是 把 一 个 判定 函数 (也 称 “谓词 函 数 ”) 应 用 于 集合 中 的 每 个 值 。 如 果 
谓词 为 真 ， 接收 该 值 ， 否 则 将 其 舍弃 。itertools 模块 中 的 filterfalse() 国 数 是 filter() 
函数 的 一 个 变 体 ， 第 8 章 会 介绍 itertools 模块 中 filterfalse() 函数 的 用 法 。 

下 面 利用 filter () 函数 过 滤 旅 行 数据 ， 生 成 一 个 路 径 段 长 度 大 于 50 海 里 的 子 集 : 

long = 1ist( 


filter(lambda leg: dist(leg) >= 50, trip)) 
) 


























对 于 长 路 径 段 ， 谓 词 函 数 返 回 True， 这 段 路 径 通过 测试 ， 短 路 径 则 不 能 通过 测试 。 最 终 有 
14 个 路 径 段 通过 了 长 度 测试 。 


这 种 处 理 方法 很 好 地 区 分 了 过 滤 规 则 (Lambdaa leg: daist(leg) >= 50) 和 其 他 处 理 过 程 ， 
例如 创建 trip 对 象 和 分 析 长 距离 路 径 段 等 。 


另 一 个 例子 如 下 所 示 : 


>>> filter(lambda x: X%3 == 0 orx% 5 == 0, range(10)) 
<filter object at 0x101d5de50> 

>>> sum(_) 

23 





























这 里 创建 了 一 个 简单 的 匿名 函数 , 测试 输入 值 是 否 为 3 或 者 5 的 倍数 ,然后 把 它 应 用 于 一 个 
可 迭代 对 象 range (10) ， 返 回 一 个 由 通过 测试 的 数值 组 成 的 可 迭代 序列 。 














谓词 函数 为 真 的 数 包 括 [0，3，5，6，9]， 所 以 这 些 数据 通过 了 测试 ， 而 谓词 为 假 的 数据 
都 被 舍弃 了 。 


这 个 处 理 过 程 也 可 以 用 生成 需 表 达 式 来 完成 ， 如 下 所 示 : 
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>>> list(x for x in range(10) if x%3 == 0 orx% 5 == 0) 
[0, 3, 5, 6, 9] 


此 处 理 过 程 的 严格 数学 表述 如 下 所 示 : 
{x|0x<10 和 (xmod3=0vx mod5$=0)} 


公式 表明 由 x 组 成 的 集合 满足 在 范围 range (10) 中 , 并 且 x % 3 == 0 或 者 x % 5 == 0， 











可 以 看 到 filter () 函数 和 公式 形式 的 数学 表述 之 间 存 在 很 好 的 对 应 关系 。 


过 的 


保留 




















filter() 函数 中 的 谓词 函数 经 常 需要 使 用 已 定义 的 函数 ， 而 不 是 匿名 函数 。 复 用 之 前 定义 
函数 作为 谓词 函数 的 示例 如 下 : 


>>> from ch01 exl1 import isprimeg 

>>> list(filter(isprimeg, range(100))) 

[2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43, 47, 53, 59, 61, 67, 

71, 73, 79, 83, 89, 97] 

这 里 从 另 一 个 模块 中 导入 了 一 个 名 为 isprimeg () 的 函数 ， 然 后 将 其 应 用 于 一 个 数值 集合 ， 
质数 ， 售 弃 非 质数 。 


用 这 种 方法 生成 质数 表 的 效率 很 低 , 它 表 面 上 的 简洁 类 似 于 律师 们 常 说 的 “保护 儿童 免 受 危 

















念 物品 侵害 原则 ”， 看 上 去 很 好 ， 实 际 上 扩展 性 很 差 。isprimeg () 函数 在 计算 每 个 值 时 都 要 重 
设 测 斌 条件, 必须 通过 某 种 方法 保存 之 前 质数 测试 的 计算 结果 。 更 好 的 方法 是 使 用 埃 拉 托 斯 特 尼 
得 法 ( Sieve of Eratosthenes ), 该 算法 保留 了 之 前 得 出 的 质数 , 因而 可 以 避免 大 量 低 效 的 重复 计算 。 





5.7 使 用 filter() 函 数 检 测 异常 值 


前 面 定义 了 儿 个 统计 函数 ,用 于 计算 平均 值 、 标 准 差 以 及 对 数据 进行 归 一 化 。 利 用 这 些 函 数 


查找 数据 中 的 异常 值 时 , 首先 把 mean () 函数 和 stgev () 函数 应 用 于 旅行 数据 中 路 径 段 里 的 距离 


值 ， 


计算 总 体 平均 值 和 标准 差 。 
然后 利用 z () 函数 计算 每 个 路 径 自 的 归 一 值 。 如 果 归 一 值 大 于 3， 说 明 该 样本 远离 平均 值 。 








去 掉 这 些 值 可 以 提高 数据 的 一 致 性 ， 降 低 因 测量 误差 引起 的 计算 偏差 。 


具体 实现 方法 如 下 : 
from ch04_ex4 import mean, stdev, Zz 


dist_data = list(map(dist, trip)) 

Pd = mean(dist_data) 

od = stdev(dist_data) 

outlier = lambda leg: z(dist(leg), pd, od) >3 
print ("Outliers", list(filter(outlier, trip))) 


首先 把 距离 计算 函数 映射 到 旅行 数据 的 每 个 路 径 段 上 ， 由 于 后 面 要 多 次 用 到 这 个 计算 结果 ， 
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所 以 必须 把 它 实 例 化 为 一 个 列表 对 象 。 这 里 不 能 用 人 迭代 器 ,因为 第 一 个 使 用 它 的 函数 会 把 它 包 含 
的 数据 消耗 掉 。 然 后 基于 上 面 的 计算 结果 求 总 体 统计 值 n_a 和 oc_aq， 即 平均 值 和 标准 差 。 
基于 这 些 统 计 值 ， 就 可 以 用 检查 异常 的 匿名 函数 过 滤 数 据 , 太 大 的 归 一 值 就 是 我 们 要 找 的 异 
常 值 。 
list(filter(outlier，trip)) 的 计算 结果 是 由 两 个 路 径 段 组 成 的 列表 ， 这 两 段 比 其 他 
路 径 段 大 得 多 。 路 径 段 的 平均 长 度 是 34 海 里 , 标准 差 是 24 海 里 , 归 一 化 距离 没有 小 于 -1.407 的 。 








应 把 复杂 的 问题 拆 解 为 一 系列 独立 函数 ,每 个 函数 都 可 以 单独 测试 ,以 保证 整个 
处 理 过 程 是 由 一 系列 简单 函数 构成 的 ， 这 才 是 简洁 明了 的 函数 式 编程 。 


5.8 在 iter() 函 数 中 使 用 哨兵 值 


Python 内 置 的 iter () 函数 把 集合 对 象 转换 为 迭代 器 ,1ist, dict 和 set 类 都 可 以 通过 iter () 
函数 转换 成 基于 自己 集合 的 迭代 絮 对 象 。 大 多 数 情况 下 ， 使 用 for 语句 进行 隐 式 转换 ， 但 在 一 
些 特殊 情况 下 ， 需 要 显 式 创建 迭代 器 ， 例 如 把 集合 的 头 部 与 后 面 分 开 。 


其 他 场景 包括 用 迭代 器 读 取 可 调用 对 象 〈 例如 函数 ) 的 返回 值 ， 直 到 匹配 到 哨兵 值 。 可 以 把 
它 与 read () 函数 结合 来 读 取 文 件 , 直到 遇 到 行 结束 符 或 者 文件 结束 符 。 例 如 iter (file.read,， 
'\n') 会 一 直 读 取 文 件 内 容 , 直到 遇 到 哨兵 值 ' \n' 。 使 用 它 的 时 候 要 注意 ,如果 在 数据 中 一 直 没 
有 遇 到 哨兵 值 ， 画 数 将 一 直 反 复读 取 零 长 度 的 字符 串 。 


作为 iter () 参 数 的 函数 必须 维护 内 部 状态 ， 使 用 起 来 有 一 定 难度 。 函 数 式 编程 往往 避免 维 
护 内 部 状态 ， 然 而 所 有 的 打开 文件 对 象 都 会 维护 一 个 外 界 不 可 见 的 状态 ， 比 如 read () 函数 或 者 
readline () 函数 的 内 部 状态 是 下 一 个 字符 或 者 下 一 行 的 位 置 。 


显 式 迭代 的 男 一 种 用 法 是 可 变 集合 使 用 pop () 方 法 改变 自身 状态 ， 使 用 pop () 方 法 的 示例 
如 下 : 
>>> tail = iter([1, 2, 3, None, 4, 5, 6] .pop, None) 


>>> list(tail) 
[6, 5, 4] 








































































































tail 变量 中 保存 的 是 列表 [1，2，3，None，4，5，6] 使 用 pop() 方 法 生成 的 迭代 器 。 
pop () 方 法 默认 弹出 下 标 为 -1 的 列表 元 素 , 也 就 是 按照 逆序 依次 弹出 各 个 元 素 。 每 次 执行 pop () 
方法 时 ， 移 除 一 个 元 素 ， 列 表 内 容 发 生变 化 ,列表 对 象 状 态 随 之 变化 。 当 匹配 到 哨兵 值 后 ,迭代 
器 不 再 返回 数据 ， 如 果 一 直 没 有 匹配 到 哨兵 值 ，IndqexError 异常 会 终止 函数 的 执行 。 


应 尽量 避免 维护 对 象 的 内 部 状态 ， 本 书 不 再 涉及 这 一 语言 特征 。 

































































5.9 使 用 sorted () 函数 将 数据 排序 


当 需 要 将 按照 指定 规则 将 数据 排序 时 ， 有 两 种 方法 可 用 。 可 以 创建 列表 对 象 ， 然 后 用 
1ist.sort() 方 法 将 这 个 列表 排序 。 或 者 选用 sortea () 函数 ， 可 以 用 它 处 理 任 何 可 迭代 对 象 ， 
返回 排序 后 的 列表 对 象 。 

sorted () 困 数 有 两 种 用 法 : 直接 应 用 于 集合 , 或 者 作为 高 阶 函 数 使 用 key 参数 定制 排序 方法 。 

下 面 处 理 第 4 章 的 旅行 数据 。 之 前 编写 的 函数 生成 了 一 个 由 起 点 、 终 点 和 距离 组 成 的 三 元 组 
序列 ， 代 表 旅 行 线路 ， 数 据 如 下 所 示 : 

( 

















37,54901619777347;. =76%33029518659048)5. (37 .840832; ~—76.273834); 17.7246); 
37.840832,. =76:273834), (38.331501, =76.459503), 30.7382.). 

38.3315017 ~76%459503)y "(38.845501; 人 756553733417 3L.0Q756)y 

36%843334, “76.298668); (37.549, =76.331169),; “42.3962). 

3Y% D49, O533LE690 “(3388330166;. =763458504) ,41 2866) 

38%330166; 7Y6:458504) 7 (38.9763347 ~706%473503) ;38.8019) 





) 
使 用 如 下 交互 式 命令 行 查 看 sorted () 函数 的 默认 行为 : 


>>> sorted(dist(x) for x in trip) 
[0.1731, 0.1898, 1.4235, 4.3155, ... 86.2095, 115.1751, 129.7748] 


这 里 首先 使 用 生成 器 表达 式 (dist (x) for x in trip) 从 旅行 数据 从 提取 距离 信息 ， 然 后 
将 生成 的 可 迭代 对 象 排序 ， 得 到 了 从 约 0.17 海 里 到 约 129.77 海里 的 距离 序列 。 


如 果 想 在 返回 结果 中 保留 起 点 、 终 点 和 距离 ， 即 原来 的 三 元 组 形式 ,可 以 使 用 sorted() 函 
数 并 结合 key 函数 指明 排序 的 方式 ， 如 下 所 示 : 
>>> sorted(trip, key=dist) 
[ 
((35.505665, -76.653664), (35.508335, -76.654999), 0.1731), 
((35.028175, -76.682495), (35.031334, -76.682663), 0.1898), 
((27.154167, -80.195663), (29.195168, -81.002998), 129.7748) 
] 


这 样 就 按照 距离 把 旅行 数据 排序 好 了 ， 其 中 排序 函数 sist 如 下 所 示 : 


dist = lambda leg: leg[2] 


这 个 例子 很 好 地 展示 了 可 以 使 用 匿名 函数 从 复杂 元 组 中 提取 待 排序 数据 。 




















5.10 ”编写 高 阶 函 数 
高 阶 函 数 可 以 分 为 以 下 三 类 。 





口 以 函数 为 参数 的 函数 。 
口 以 函数 为 返回 值 的 函数 ， 例 如 callable 类 。 也 可 以 将 返回 生成 器 表达 式 的 函数 视 为 高 
阶 函 数 。 

口 以 函数 为 参数 ， 并 且 返 回 函 数 的 函数 ， 例 如 functools.partial()， 第 10 章 将 介绍 。 























装饰 器 是 另 一 种 情况 ， 第 11 章 将 介绍 。 
我 们 将 使 用 高 阶 函 数 处 理 简单 形式 的 数据 ， 改 变数 据 的 结构 ， 以 及 执行 如 下 变换 : 


口 打包 数据 ， 生 成 更 复杂 的 对 象 ; 

口 从 复杂 数据 对 象 中 抽取 某 个 组 件 ; 
口 平 铺 复杂 数据 序列 ; 

口 结构 化 一 维 数据 序列 。 


callable 类 对 象 常用 于 那些 返回 可 调用 对 象 的 函数 ， 后面 会 利用 它 编写 能 注入 配置 参数 的 


本 章 还 会 介绍 简单 的 装饰 器 ， 第 11 章 会 深入 研究 装饰 器 相关 问题 。 












































5.11 编写 高 阶 映射 和 过 滤 函 数 


Python 的 两 个 内 置 高 阶 函 数 map () 和 filter() 基 本 上 可 以 处 理 任何 数据 。 总 的 说 来 ， 
这 两 个 函数 以 获得 更 高 性 能 比较 困难 。 第 8 章 会 介绍 Python 3.4 的 几 个 函数 ,包括 imap ( 


ifilter() 和 ifilterfalse() 等 。 


表达 映射 关系 有 3 种 方式 ,假设 有 函数 f(x) ， 集 合 对 象 c， 可 以 用 下 面 3 种 方式 表达 映射 
关系 : 


口 map () 国 数 : map ( (2 

口 生成 器 表达 式 : (f(x) for x in C) 
口 包含 yield 语句 的 生成 器 函数 

def mymap(f, C): 

foF XK “Ln Cs 


yield f(x) 
mymap (f, C) 


类 似 地 ， 可 以 用 下 面 3 种 方法 把 filter () 函数 应 用 于 集合 。 

















口 filter() 国 数 : filter(f, C)。 
口 生成 器 表达 式 : (x for x in C if f(x))。 
口 包含 yiela 语句 的 生成 器 函数 ， 
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def myfilter(f, C): 
fOr LN. 
LF 
yield x 
myfilter(f, C) 
不 同方 式 的 性 能 存在 一 定 差异 ,其 中 map () 和 filter () 最 快 。 更 重要 的 是 ,可 以 用 不 同 的 
方式 扩展 上 面 的 映射 和 过 滤 ， 如 下 所 示 。 


口 可 以 创建 一 个 更 复杂 的 函数 g(x) 应 用 于 每 个 元 素 , 或 者 在 处 理 前 先 对 集合 应 用 一 个 函数 。 
这 些 方法 对 上 面 三 种 设计 模式 都 适用 ， 也 是 函数 式 设计 擅长 的 领域 。 

口 修改 生成 器 表达 式 或 者 生成 器 函数 中 的 for 循环 。 比 较 常 用 的 处 理 方法 是 为 生成 器 表达 式 
添加 if 从 句 , 从 而 将 映射 和 过 滤 合 并 到 一 次 操作 中 。 还 可 以 合并 mymap () 函数 和 myfilter () 
函数 ， 从 而 实现 合并 映射 操作 和 过 滤 操 作 。 


在 软件 不 断 完善 和 成 熟 的 过 程 中 , 常 通过 修改 循环 体 来 调整 数据 结构 。 对 此 有 多 种 设计 模式 ， 
包括 打包 、 拆 包 (或 者 展开 )、 平 铺 以 及 结构 化 ， 之 前 介绍 过 其 中 几 种 。 


设计 映射 时 ,如 果 一 个 函数 中 包含 太 多 转换 ,就 要 注意 了 。 应 尽量 避免 创建 那些 主要 功能 不 
明 的 函数 。 由 于 Python 没有 优化 编译 顺 ， 有 时 必须 通过 合并 函数 来 手动 优化 一 些 低 性 能 的 应 用 。 
但 只 在 别 无 他 法 时 才 可 以 使 用 这 类 优化 ,也 就 是 说 ， 只 有 在 性 能 分 析 表 明 应 用 需要 优化 时 , 才 进 
行 优化 。 
















































































5.11.1 拆 包 并 映射 数据 


当 使 用 类 似 于 (f(x) for x，y in C) 这 样 的 结构 时 ， 我 们 使 用 for 语句 中 的 多 重 赋值 拆 
开 一 个 元 组 ， 并 将 一 个 函数 应 用 于 其 中 一 部 分 数据 。 整 体 上 这 是 一 个 映射 。 这 是 Python 常用 的 
改变 结构 和 应 用 函数 的 优化 方法 。 

继续 使 用 第 4 章 中 的 旅行 数据 。 下 面 是 一 个 拆 包 并 映射 的 具体 实现 。 


from typing import Callable, Iterable, Tuple, Iterator, Any 























Conv_F = Callable[ [float], float] 
Leg = Tuple[lAny, Any, floatl] 


def convert\( 
conversion: Conv_F, 
trip: Iterable[Leg]) -> Iterator [float]: 
return ( 
conversion(distance) for start, end, distance in trip 


) 


该 高 阶 函 数 使 用 下 面 的 转换 函数 处 理 原始 数据 。 
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to_miles = lambda nm: nm * 5280 / 6076.12 
to_km = lambda nm: nm * 1.852 
to_nm = lambda nm: nm 


有 了 转换 函数 ， 就 可 以 提取 距离 数据 ， 下 进行 转换 了 ， 如 下 所 示 : 


convert (to miles, trip) 


处 理 结 果 是 一 系列 浮 点 数 ， 如 下 所 示 : 














[20.397120559090908，35.37291511060606，...，44.652462240151515] 
从 convert () 图 数 的 for 语句 不 难看 出 ， 这 个 琢 数 只 适用 于 “起 点 -终点 -距离 ”格式 的 旅 
行 数据 。 


数 ， 


可 以 进一步 抽象 这 类 “ 拆 包 -映射 ”设计 模式 ， 整 个 过 程 稍 复杂 。 首 先 需 要 定义 通用 分 解 函 
如 下 所 示 : 


fst lambda x: x[0 
snd lambda x: x[1 
sel2 = lambda x: X[ 


要 表达 f(sel2(s_e gd)) for s_e qd in trip， 就 要 用 到 复合 函数 。 我 们 把 一 个 类 似 于 


] 
] 
2] 


to_miles() 的 函数 和 一 个 类 似 于 se12 () 的 选择 器 组 合 在 一 起 。 在 Python 中 ， 可 以 用 匿名 消 数 
把 函数 组 合 在 一 起 ， 如 下 所 示 : 





to_miles = lambda s_e_d: to miles(sel2(s_e_ qd)) 


这 样 就 得 到 了 一 个 更 长 ， 但 更 通用 的 实现 ， 如 下 所 示 : 


(to _ miles(s_e qd) for s_e qd in trip) 
这 个 版 本 更 具 通 用 性 ， 不 过 用 处 似乎 不 太 大 。 
对 于 上 述 convert () 高 阶 函 数 ， 需 要 特别 注意 的 是 ， 它 使 用 函数 作为 参数 ， 并 返回 生成 器 




















函数 作为 结果 。convert () 函数 不 是 生成 器 函数 , 不 会 生成 任何 值 , 它 的 返回 值 是 一 个 生成 吉 表 
达 式 ， 需 要 对 其 求 值 才 能 得 到 具体 的 计算 结果 。 我 们 使 用 Iterator [float] 来 强调 返回 结果 是 
迭代 器 ， 也 就 是 Python 生成 器 函数 的 子 类 。 

















在 这 个 设计 模式 中 ， 可 以 用 多 重 过 滤 代替 有 映射， 实现 方法 是 在 返回 的 生成 器 表达 式 中 ,用 





if 从 句 实现 过 滤 功 能 。 























映射 和 过 滤 结 合 可 以 生成 更 复杂 的 函数 。 创 建 复杂 的 函数 来 缩短 处 理 过 程 似乎 是 个 好 主意 ， 





但 实际 情况 并 非 总 是 如 此 。 复杂 函 数 的 性 能 往往 不 如 柑 套 的 map () 函数 和 filter () 函数 。 总 体 
而 言 ， 只 有 在 函数 通过 封装 概念 来 降低 软件 开发 复杂 度 的 情况 下 ， 才 考虑 使 用 复杂 函数 。 
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5.11.2 ”打包 多 项 数据 并 映射 


当 使 用 类 似 于 ((f(x)，x) for x in c) 这 样 的 结构 时 ， 首 先 将 多 个 值 打包 以 创建 元 组 ， 
然后 进行 映射 。 通 常用 这 种 方法 保存 中 间 计 算 结 果 。 它 既 可 以 避免 使 用 包含 复杂 状态 的 对 象 , 也 
可 以 避免 重复 计算 。 


下 面 是 第 4 章 中 根据 路 径 点 创建 旅行 数据 的 计算 过 程 的 一 部 分 ， 代 码 如 下 所 示 : 


from ch02_ex3 import ( 
float_from pair, lat_lon kml, limits, haversine, legs 














) 


patnh float_from pair(float_ lat_lonl(row_ iter kml (source))) 
trip = tuplel 

(start, end, round(haversine(start, end), 4)) 

for start, end in legs (iter (path)) 








) 


对 上 述 代码 稍 做 修改 ， 创 建 一 个 高 阶 函 数 把 打包 部 分 与 其 他 函数 分 开 ， 具体 实现 如 下 : 


from typing import Callable, Iterable, Tuple, Iterator 





Point = Tuplel[lfloat, float] 
Leg_Raw = Tuplel[Point, Point] 


Point_Func = Callablel[ [Point, Point], float] 
Leg_D = Tuple[lPoint, Point, float] 


def cons_distancel 
distance: Point_Func, 
legs_iter: Iterable[Leg_ Raw]) -> Iteratorl[lLeg_D]: 
return ( 
(start, end, round(distance(start,end), 4)) 
for start,end in legs_iter 
) 




















这 个 函数 将 每 个 路 径 段 拆 解 开 ， 保 存在 start 和 eng 两 个 变量 里 ， 这 些 变量 是 类 型 Point 
的 实例 ,也 就 是 由 浮 点 数组 成 的 二 元 组 。 这 些 变量 作为 distance () 了 艺 数 的 参数 ,计算 出 每 段 距 
离 。 距 离 函 数 接收 两 个 Point 类 型 对 象 作 参 数 ， 返 回 一 个 float 值 。cons_dqistance () 返 回 
一 个 三 元 组 ， 包 括 原始 数据 中 的 起 点 和 终点 ， 以 及 距离 计算 结 

接 下 来 修改 trip 的 赋值 表达 式 ， 通 过 haversine() 函数 计算 距离 ， 如 下 所 示 : 


path = float_from pair(float_ lat_lonl(row_ iter kml (source) ) ) 
trip2 = tuple(cons_ distance(haversine, legs (iter (path)))) 


用 高 阶 函 数 cons_dqistance () 代 替 了 生成 需 表 达 式 , 使 用 函数 作为 参数 , 返回 生成 器 表达 式 。 
对 上 面 的 函数 稍 做 修改 ， 得 到 如 下 函数 : 
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from typing import Callable, JIterable, Tuple, Iterator, Any 
Point = Tuple[lfloat, float] 

Leg_Raw = Tuple[Point, Point] 

Point_Func = Callable[[Point, Point], float] 

Leg_P_D = Tuple[Leg_ Raw, ...] 





def cons_distance3( 
distance: Point_Func, 


legs_iter: Iterable[Leg_ Raw]) -> Iterator[Leg_P_D]: 
return ( 
leg + (round(distance(*leg), 4), ) # 1-tuple 


for leg in legs_iter 


) 


该 版 本 清晰 地 展示 了 如 何 基于 原 有 对 象 创建 新 的 对 象 , 遍历 旅行 数据 中 的 每 个 路 径 段 , 类 型 
为 eg_Raw， 即 包含 两 个 点 的 二 元 组 ， 沿 着 路 径 段 计算 距离 ， 把 代表 原始 路 径 段 的 Leg_Raw 类 
型 的 对 象 与 计算 得 到 的 距离 组 合 在 一 起 。 


由 于 这 些 cons_qistance () 函数 都 接收 函数 作为 参数 ， 因 此 可 以 用 其 他 公式 计算 距离 。 例 
如 ， 可 以 使 用 math.hypot (lat (start) - lat(end), lon(start) - lon(end) ) 计算 出 每 
个 路 径 段 起 点 和 终点 间 的 平面 距离 ， 尽 管 这 种 算法 不 太 合 适 在 这 里 使 用 。 


第 10 章 将 使 用 partial () 函数 设置 haversine() 函数 中 R 人 参数 的 值 来 改变 距离 计算 单位 。 











5.11.3 平 铺 数 据 并 映射 


第 4 童 介绍 了 将 朋 套 元 组 平 铺 为 简单 可 迭代 对 象 的 算法 。 当 时 的 目标 只 是 改变 数据 结构 , 没 
有 对 数据 做 实质 性 处 理 ， 下 面 介绍 如 何 将 处 理 函 数 和 平 铺 操作 结合 起 来 。 


假设 需要 把 如 下 文本 转换 为 一 维 数值 序列 : 


>>> 七 ext= """\ 











73 79 83 89 97 101 103 107 109 113 
. 127 131 137 139 149 151 157 163 167 173 
. 179 181 191 193 197 199 211 223 227 229 


mn nm 








每 行 包含 10 个 数据 ， 接 下 来 要 把 所 有 行 合并 为 一 个 数值 序列 。 
通过 下 面 这 个 由 两 部 分 组 成 的 生成 名 函数 实现 数据 转换 : 


data. 三 TiSt( 
V 
for line in text.splitlines() 
for V in line.split!() 
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首先 将 整个 文本 分 为 多 行 ,遍历 每 一 行 。 在 一 行 中 ,再 将 文本 分 为 许多 词组 , 输出 是 一 个 
符 串 列表 ， 如 下 所 示 : 
[UO 全 全 WB yy DT, TR 0 3395 
AT 生生 生生 有 了 WOT “OT WH A 1 
"Ov VOR VY EOL VOB VLEONE Dy SLO VILS TO ESE 用 汗 二 So 
SO EO A ml GD ys WG 
93 SE MOOT VO 3 A D229 
除了 改变 格式 ， 为 了 将 字符 串 转 换 为 数值 ， 还 需要 增加 一 个 转换 函数 ， 如 下 所 示 : 
from numbers import Number 
from typing import Callable, Iterator 
Num_ Conv = Callable[[str], Number] 
def numbers_from rows!\( 
conversion: Num_ Conv, text: str) -> Iterator[Number]: 
return ( 
conversion(value) 
for line in text.splitlines!() 
for value in line.split() 
) 
该 函数 有 个 conversion 参数 ， 作 为 转换 函数 ， 处 理 前 面 平 铺 算法 生成 的 每 个 值 。 
如 下 所 示 使 用 numbers_from_rows () 函数 : 
print (list (numbers_from rows (float, text))) 
这 里 使 用 内 置 函数 float () 将 一 段 文本 转换 为 了 一 个 浮 点 数列 表 。 
可 以 将 高 阶 函 数 和 生成 器 表达 式 相 结合 来 改写 上 面 的 函数 ， 如 下 所 示 : 
map (float, 
value 
for line in text.splitlines!() 
for value in line.split() 
) 
这 种 实现 方法 有 助 于 我 们 理解 算法 的 整体 结构 。 采 用 组 块 原则 ,函数 的 具体 实现 通过 一 个 有 


意义 的 名 字 进 
生成 器 表达 式 能 使 算法 更 简便 。 








5.11.4 过 滤 并 结构 化 数据 


前 面 3 个 例子 都 是 将 数据 处 理 和 映射 相 结合 ， 
































了 抽象 ， 然 后 将 其 用 于 新 的 上 下 文中 。 虽然 通常 使 用 高 阶 函 数 , 但 某 些 情况 下 使 用 





过 滤 并 处 理 数 据 相 比 而 言 不 那么 明了 ,下 面 举 














例 说 明 过 


寺 滤 并 处 理 这 对 组 合 虽 然 很 有 用 ,但 是 其 应 用 场景 不 如 处 理 并 映射 这 对 组 合 典型 。 
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第 4 章 介 绍 过 , 借助 结构 化 数据 算法 , 可 以 方便 地 将 带 有 结构 化 算法 的 过 滤 融 与 一 个 复杂 函 
数 结合 起 来 。 从 可 迭代 对 象 中 取出 部 分 值 的 函数 如 下 : 


from typing import Iterator, Tuple 


def group_by_iter(n: int, items: Iterator) 
row = tuple (next (items) 
while row: 

yielgd row 


row = tuple (next (items) 


-> ILerator [Tuplel] : 
for i in range(n)) 


for i in range(n)) 





该 函数 从 一 个 可 迭代 对 象 中 取出 地 个 元 素 , 输入 可 迭代 对 象 中 的 元 素 作为 输出 结果 的 一 部 分 


依次 被 yield 语句 返回 ,。 原则 上 , 该 函数 递归 处 理 输入 可 迭代 对 象 中 的 值 , 但 由 于 递归 在 Python 
中 效率 较 低 ， 这 里 用 显 式 的 while 循环 代替 递归 。 


如 下 所 示 使 用 该 函数 : 


group_by_iter(7, 


filter(lambda x: x $3 ==0 orx% 5 == 0, range(100)) 
) 





首先 使 用 range () 函数 创建 一 个 可 壕 代 对 象 ， 然 后 用 filter 水 数 进行 过 滤 ， 最 后 进行 
分 组 。 





将 分 组 和 过 滤 放 在 同一 个 函数 体 中 , 就 实现 了 一 个 函数 包含 分 组 和 过 滤 两 个 处 理 步骤 , 修改 
后 的 函数 如 下 所 示 : 





def group_filter_ iter( 

n: int, pred: Callable, 
subset = filter (pred, items) 
row = tuple (next (subset) 
while row: 

yield row 


items: Iterator) -> Iterator: 


for i in range(n)) 


row = tuple (next (subset) for i in range(n)) 


首先 使 用 谓词 函数 处 理 输入 可 和 迭代 对 象 ， 生 成 一 个 非 严格 的 可 迭代 对 象 ， 所 以 不 会 立刻 对 
data 变量 求 值 ， 而 只 在 需要 的 时 候 才 求 值 ， 这 个 函数 的 实现 方法 与 前 面 的 例子 一 样 。 


略微 简化 一 下 上 上 下文， 如 下 所 示 使 用 该 函数 : 
group_filter_iter( 
了 5 
.ambda XX B00 63 Se 0 
range(1, 100) 





) 


只 需 一 次 函数 调用 ,就 可 以 过 滤 并 提取 数据 。 但 将 filter () 函数 和 其 他 处 理 步 又 放 在 一 起 
往往 不 够 清晰 ， 大 多 数 情况 下 ， 单 独 的 filter () 函数 比 组 合 函 数 更 实用 。 
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5.12 编写 生成 器 函数 


可 以 将 许多 函数 简洁 地 写成 生成 器 表达 式 的 形式 ， 比 如 之 前 讲 过 的 映射 和 过 渡 。 另外， 也 可 
以 用 Python 内 四 的 高 阶 函 数 (例如 map () 或 者 fi1ter () ) 或 者 生成 器 函数 实现 这 此 函数 。 编 
写 代码 时 ,如果 生 成 器 丽 数 中 包含 多 条 语句 ,要 留意 代码 实现 是 否 偏离 了 函数 式 编程 的 指导 原则 
对 无 状态 的 函数 求 值 。 


使 用 Python 进行 函数 式 编程 ， 就 像 在 刀锋 上 行走 : 一 边 是 纯 函 数 式 编程 ， 一 边 是 命令 式 编 
程 。 我 们 需要 仔细 地 辨别 出 那些 无 法 通过 纯粹 的 函数 式 编程 实现 的 部 分 ， 使 用 命令 式 Python 完 
成 它 ， 并 把 这 些 部 分 与 其 他 函数 式 部 分 的 代码 隔离 开 。 


代码 逻辑 必须 使 用 Python 语句 实现 时 ， 就 只 能 用 生成 器 函数 。 下 面 罗列 了 一 些 不 能 使 用 生 
成 名 表达 式 的 场景 。 


口 使 用 with 语句 处 理 外 部 资源 时 ， 第 6 章 将 详 述 文件 解析 问题 。 

口 循环 条 件 比较 灵活 , 不 能 用 for 语句 , 而 需要 用 while 语句 时 , 例如 5.11.3 节 中 的 例子 。 
口 循环 中 ， 由 于 满足 特定 条 件 ， 需 要 使 用 break 语句 或 者 return 语句 提前 结束 循环 时 。 
口 使 用 try-except 结构 处 理 异常 时 。 

口 包含 内 部 函数 定义 时 。 第 1 章 和 第 2 章 讲 过 这 样 的 例子 ， 第 6 章 还 会 介绍 这 种 情况 。 

口 复杂 的 if-elif 分 支 语 句 。 当 需要 处 理 的 分 支 多 于 一 种 ， 无 法 用 if-else 表达 时 ,分 
文 语句 会 变 得 相对 复杂 。 

口 以 及 那些 不 常用 的 Python 语句 ,包括 for-else、while-else、try-else 和 try- 
else-finally 等 ， 也 都 无 法 在 生成 器 表达 式 中 使 用 。 


通常 使 用 break 语句 提前 结束 集合 处 理 过 程 。 当 遍历 时 遇 到 的 元 素 满足 指定 的 要 求 ， 就 可 
以 结束 整个 处 理 过程 了 , 这 类 似 于 检测 集合 中 是 否 存在 拥有 某 种 属性 元 素 的 any () 函数 。 还 有 一 
种 情况 是 在 处 理 完 指定 数量 的 元 素 ( 不 是 所 有 元 素 ) 后 退出 。 

可 以 将 寻找 集合 中 的 特定 值 简洁 地 表达 为 min (some-big-expression) 或 者 max (something 
big)。 在 这 种 情况 下 ， 必 须 检 查 集合 中 的 所 有 元 素 ， 确 保 选 出 的 是 最 大 值 或 者 最 小 值 。 

少数 情况 下 ， 需 要 实现 一 个 first (function，collection) 畏 数 ， 只 要 找到 第 一 个 值 就 
够 了 。 为 了 避免 不 必要 的 计算 ,遍历 结束 得 越 早 越 好 。 

下 面 是 该 也 数 的 一 种 实现 : 


def first(predicate: Callable, collection: Iterable) -> Any: 
for x in collection: 
if predicate(x): return x 


遍历 集合 ， 对 集合 中 的 每 个 元 素 应 用 指定 的 谓词 函数 。 如 果 谓 词 函 数 判 断 结果 为 Trrue， 则 
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返回 对 应 的 元 素 ; 如 果 集 合 遍历 完毕 ， 则 返回 默认 的 None 值 。 


可 以 从 PyPI 上 下 载 该 函数 的 一 个 版 本 ，first 模块 基本 上 是 对 上 面 的 思想 的 实现 与 扩展 ， 
更 多 细节 可 参考 https://pypi.python.org/pypi/first。 
判断 一 个 数 是 否 为 质数 时 就 可 以 用 这 里 的 first 函数 ， 示 例如 下 : 


import math 
def isprimeh (x: int) -> bool: 


























jf “2 tn TE 
if x $ 2 == 0: return False 
factor = first( 

lambda. Te RR TT == 0 


range(3, int (math.saqrt (x) + .5) + 1, 2)) 
return factor is None 


该 函数 处 理 了 一 些 特殊 情况 ,包括 2 是 质数 ， 而 其 他 偶数 都 不 是 质数 ， 然 后 用 上 面 定义 的 
first () 函数 寻找 指定 集合 中 的 第 一 个 因子 。 


first () 函数 返回 第 一 个 因子 。 在 这 个 场景 中 ,这 个 数 具 体 是 什么 并 不 重要 ， 存 在 与 否 才 重 
要 。 当 因子 不 存在 时 ，isprimeh () 函数 返回 True。 


可 以 使 用 同样 的 方法 处 理 数据 异常 。 处 理 无 效 数 据 的 map () 函数 如 下 : 


def map_not_none(func: Callable, source: Iterable) -> Iterator: 
for x in source: 
GR 
yield func (x) 
except Exception as e: 
pass # For help debugging, use Print(e) 


该 函数 遍历 可 迭代 对 象 中 的 每 个 元 素 ， 并 将 函数 应 用 于 元 素 。 如 果 没 有 异常 ,， 则 返回 处 理 结 
果 ; 如 果 发 现 了 异常 ， 则 舍弃 该 异常 元 素 。 


处 理 包含 无 效 值 或 者 缺失 值 的 数据 时 , 这 种 方法 很 方便 , 无 须 创 建 复 杂 的 过 滤器 筛 选 异常 值 ， 
只 要 在 处 理 过程 中 舍弃 无 效 的 输入 值 即 可 。 
可 以 对 包含 无 效 值 的 输入 数据 执行 映射 ， 如 下 所 示 : 


data = map_not_ none(int, some_source) 


some_source 集合 由 字符 串 组 成 , map_not_none () 函数 对 其 中 元 素 依次 应 用 int () 函数 ， 
可 以 方便 地 过 滤 掉 那些 不 代表 数字 的 字符 串 。 






























































5.13 ”使 用 可 调用 对 象 构建 高 阶 函 数 


可 以 通过 创建 callable 类 对 象 来 定义 高 阶 函 数 。 与 编写 生成 带 函 数 的 思路 类 似 , 编写 可 调 
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用 对 象 是 为 了 使 用 Python 语句 。 除 了 能 使 用 语句 外 ， 还 可 以 在 创建 高 阶 函 数 时 进行 静态 配置 。 


通过 class 声明 定义 callable 类 对 象 ， 实 际 上 定义 了 一 个 以 函数 为 返 回 值 的 函 数 。 通 常 
可 以 使 用 可 调用 对 象 把 两 个 函数 组 合 起 来 ， 形 成 一 个 复杂 函数 。 


如 下 面 的 类 所 示 : 


from typing import Callable, Optional, Any 








class NullAware: 


def _ init _( 
self, some_func: Callable[[Any], Any]) -> None: 
self.some_func = some_func 
def _ call__(self, arg: Optional[Any]) -> Optional [Any] : 





return None if arg is None else self.some func(arg) 


个 类 用 于 创建 空 值 敏感 的 新 函数 。 创 建 这 个 类 的 实例 时 需要 提供 一 个 函数 ( some_func ) 
i 对 该 函数 的 限制 条 件 由 callable[ [Any], Any] 定 义 , 即 输入 单一 值 并 返回 单一 值 。 
返回 结果 是 可 调用 的 ， 并 接收 一 个 可 选 参数 。__call__() 方 法 处 理 参 数 为 None 的 情况 ， 这 个 
方法 将 返回 结果 类 型 定义 为 Callable[ [optional [Anvy]]，optional [Any]]。 


对 表达 式 Nu11Aware (math.1og) 求 值 ， 创 建 出 一 个 作用 于 参数 的 新 函数 。_ init ”方法 
将 用 户 定 义 的 函数 保存 在 结果 对 象 中 ， 该 对 象 是 个 包含 数据 处 理 逻 辑 的 函数 。 


通常 会 为 生成 的 新 函数 指定 一 个 名 称 ， 以 便 后 续 使 用 ， 如 下 所 示 : 


null_log_scale = NullAware (math.1og) 


这 里 将 新 创建 的 函数 赋 给 变量 nul1_1og_scale， 接 下 来 就 可 以 在 新 的 上 下 文中 使 用 该 函 
数 了 ， 如 下 所 示 : 

>>> some data = [10, 100, None, 50, 60] 

>>> scaled = map(null log scale, some data) 

>>> list(scaled) 


[2.302585092994046, 4.605170185988092, None, 3.912023005428146, 
4.0943445622221] 


或 者 像 下 面 这 样 ， 把 创建 和 使 用 函数 写 在 同一 个 表达 式 中 : 


>>> Scaled = map(NullAware (math.]1og), some data) 

>>> list(scaled) 

[2.302585092994046, 4.605170185988092, None, 3.912023005428146, 
4.0943445622221] 


对 NullAware (math.1og) 求 值 的 返回 结果 是 一 个 匿名 函数 ， 该 函数 在 map () 函数 中 用 于 
处 理 可 壕 代 对 象 some_data。 


上 面 例子 中 的 _cal1l _() 方 法 完全 基于 表达 式 求 值 ， 是 一 种 简洁 易 用 的 基于 底层 组 件 函 数 
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创建 复合 函数 的 方法 。 当 使 用 标量 函数 时 ， 只 需 考 虑 很 少儿 个 设计 约束 就 可 以 了 ,而 当 涉 及 可 和 迭 
代 集 合 时 ， 就 需要 仔细 苦 酌 了 。 








确保 正确 的 函数 式 设计 


使 用 无 状态 的 函数 式 Python 代码 时 ， 要 注意 使 用 对 象 ， 因 为 对 象 是 有 状态 的 。 实 际 上 ， 面 
向 对 象 编程 旨 在 把 状态 变化 封装 到 类 定义 中 。 这 样 在 使 用 Python 类 定义 处 理 集合 时 ， 你 会 发 现 
函数 式 编程 和 命令 式 编程 背道而驰 。 

使 用 可 调用 对 象 创建 复 合 函 数 , 让 我 们 能 以 相对 简单 的 语法 使 用 这 些 复 合 函 数 。 在 使 用 可 和 迭 
代 映 射 或 者 归 约 时 ， 需 要 注意 引 人 有 状态 对 象 的 原因 及 方式 。 

回 到 之 前 的 sum_filter_f() 复 合 因数 。 基 于 callaple 类 定义 的 实现 如 下 : 


from typing import Callable, Iterable 
















































































class Sum Filter: 
LOCUS S|[TfiLEET"?. "FENGtLONn] 
def Minit (self.; 
filter: Callable[[Any], bool], 
func: Callable[ [Any], float]) -> None: 
Self', filter SS fi1lter 
self.function = func 
def _ call__(self, iterable: Iterable) -> float: 
return sum( 
self.function (x) 
for x in iterable 
if self.filter (x) 
) 


这 个 类 的 每 个 对 象 只 能 有 两 个 属性 ,以 降低 后 续 把 该 函数 当成 有 状态 对 象 使 用 的 可 能 性 。 这 
种 限制 并 不 能 完全 杜绝 对 返回 结果 对 象 的 修改 , 但 将 对 象 属性 限制 为 两 个 , 使 得 添加 其 他 属性 将 
引发 异常 。 


初始 化 方法 _ init__() 为 对 象 实 例 加 载 了 两 个 函数 : filter 和 func。 call _() 方 法 
的 返回 值 是 一 个 生成 器 表达 式 ， 这 个 生成 器 表达 式 又 使 用 了 前 两 个 函数 。 其 中 self. filter() 
方法 用 于 对 集合 元 素 进行 取舍 ，self . function () 函数 用 于 转换 通过 了 filter () 函数 检验 的 
元 素 。 

类 的 实例 是 包含 两 个 策略 函数 的 函数 。 创 建 类 的 实例 如 下 所 示 : 

count_not_ none = Sum Filterl( 


lambda x: x is not None, 
lambda x: 1) 


















































该 函数 的 功能 是 计算 序列 中 非 None 元 素 的 个 数 。 它 使 用 了 两 个 匿名 函数 : 一 个 过 滤 出 序列 
中 的 非 None 元 素 ， 另 一 个 将 所 有 非 None 元 素 转 换 为 1。 
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总 的 说 来 ， 这 个 count_not_none() 函数 与 其 他 Python 函数 一 样 ， 使 用 方法 比 前 面 的 
sum_filter_f() 少数 简单 一 些 。 
如 下 所 示 使 用 count_not_none () 函数 : 


N = count_ not_ none(data) 


如 下 所 示 使 用 sum_filter_f() 捕 数 : 

N= sum filter _f(valid, count_, data) 

可 以 看 出 ， 基 于 一 个 可 调用 对 象 的 count_not_none () 国 数 比 普 通 函 数 的 参数 要 少 ， 所 以 
使 用 起 来 相对 简单 。 但 它 定 义 函 数 行为 的 代码 分 散在 两 处 ( 可 调用 类 中 的 定义 ， 以 及 使 用 函数 时 
指定 的 参数 )， 从 这 个 角度 看 ， 这 种 方式 似乎 不 够 清晰 明了 。 








5.14 ”设计 模式 回顾 


在 不 提供 key 函数 的 情况 下 ,函数 max()、min() 以 及 sorted() 按 照 默 认 方式 执行 。 当 提 
供 了 key 函数 ， 则 按照 key 函数 指定 的 方法 基于 输入 数据 计算 key 值 。 在 之 前 的 例子 中 ,计算 
key 值 的 函数 都 是 从 输入 中 简单 地 提取 数据 ， 但 其 实 不 必 如 此 ,使 用 key 函数 可 以 做 任何 事 。 


比如 函数 max (trip, key=random.randint ())。 不 过 总 的 说 来 ,尽量 避免 用 key 归 数 做 
这 类 难以 理解 的 事 。 


使 用 key= 函 数 是 常见 的 设计 模式 ， 在 编写 函数 的 过 程 中 可 以 方便 地 使 用 它 。 


前 面 介绍 过 可 以 使 用 匿名 函数 简化 高 阶 函 数 的 编写 ,使 用 匿名 函数 最 大 的 好 处 是 它 遵 循 函数 
式 编 程 范 式 。 如 果 使 用 传统 方法 定义 函数 , 很 容易 混入 命令 式 编程 代码 ， 从 而 影响 函数 式 设计 的 
简洁 性 和 可 读 性 。 


至 此 , 已 经 介绍 了 处 理 集合 数据 的 多 种 高 阶 函 数 。 前 一 章 详 细 分 析 了 与 集合 对 象 或 标量 函数 
相关 的 几 种 设计 模式 。 高 阶 函数 的 完整 分 类 如 下 。 


口 返回 生成 器 : 返回 生成 右 表 达 式 的 函数 属于 高 阶 函 数 ， 因 为 其 返回 值 不 是 标量 或 者 集合 。 

某 些 高 阶 函数 也 能 以 函数 为 参数 。 

口 类 生成 器 : 函数 体 中 包含 yield 语句 的 函数 ， 即 所 谓 的 “头等 生成 器 函数 "。 生 成 器 函数 
可 以 返回 惰性 求 值 的 可 迭代 集合 。 实 际 上 ， 生 成 器 函数 和 返回 生成 器 表达 式 的 函数 在 功 
能 上 基本 没有 区 别 ， 都 是 非 严 格 的 ， 都 返回 一 个 值 序 列 。 因 此 ， 通 常 将 生成 器 函数 也 视 
作 高 阶 函 数 ， 内 置 函数 map () 和 filter () 就 属于 这 一 类 。 

口 实例 化 集合 : 有 些 也 数 返 回 一 个 实例 化 的 集合 对 象 ， 例 如 列表 、 元 组 、set 以 及 映射 等 。 

如 果 该 函数 有 至 少 一 个 函数 参数 ， 它 就 是 高 阶 函数 ， 否 则 它 是 处 理 集 合 的 普通 函数 。 
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口 归 约 集合 : 有 些 函 数 的 输入 是 集合 对 象 ， 输 出 是 标量 值 ， 例 如 len () 和 sum() 函数 。 当 
参数 中 包含 函数 时 ， 也 属于 高 阶 函 数 ， 后 面 会 详细 讨论 这 个 问题 。 
口 标量 : 处 理 单个 值 的 函数 。 如 果 输 入 参数 中 包含 另 一 个 函数 ， 也 属于 


编写 软件 时 ， 上 述 设计 模式 可 供 参 考 。 











条 
至 
Ea 
次 

















5.15 ”小结 

本 章 首先 介绍 了 两 个 高 阶 归 约 函数 一 一 max () 和 min()，, 接着 介绍 了 两 个 重量 级 高 阶 函 数 一 一 
map() 和 filter()， 还 提 到 了 sorted()。 
然后 讨论 了 如 何 使 用 高 阶 函 数 改 变数 据 的 结构 , 介绍 了 针对 不 同类 型 数据 的 几 种 常用 的 变换 
方式 : 打包 、 拆 包 、 平 铺 以 及 结构 化 。 
最 后 介绍 了 定义 高 阶 函数 的 3 种 方式 : 
口 使 用 def 语句 ， 以 及 与 之 类 似 的 将 匿名 函数 赋 给 变量 的 方式 ; 
口 定义 一 个 可 调用 类 ， 实 质 上 定义 了 一 个 能 返回 复合 函数 的 函数 ; 
口 使 用 装饰 器 创建 复合 函数 ， 第 11 章 将 深入 讨论 该 话题 。 

下 一 章 将 介绍 如 何 通过 递归 实现 纯粹 的 函数 迭代 ， 以 及 运用 纯粹 的 函数 式 技术 ， 并 基于 
Python 式 的 数据 结构 进行 改进 。 下 一 章 还 会 涉及 通过 归 约 把 集合 转换 为 标量 值 的 相关 问题 。 
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前 面 介绍 了 多 种 互相 关联 的 数据 处 理 模 式 ， 如 下 所 示 : 


口 对 集合 进行 映射 并 过 滤 得 到 集合 ; 
口 对 集合 进行 归 约 得 到 标量 值 。 


map() 和 filter () 属 于 第 一 类 集合 处 理 函 数 ， 很 好 地 体现 了 两 种 模式 的 的 区 别 。 第 二 类 归 
约 函 数 包 括 min() 、max()、len() 、sum()， 以 及 通用 归 约 函数 functools.reduce()。 


也 可 以 将 collections .counter() 函数 看 作 归 约 操作 。 它 的 计算 结果 不 是 标量 值 ， 但 它 
去 掉 了 输入 数据 的 某 些 信息 , 返回 了 新 的 结构 体 。 本 质 上 , 它 执行 的 操作 是 分 组 并 计数 ， 相 较 于 
映射 ， 更 近 于 归 约 。 


本 章 将 详细 介绍 归 约 函数 。 从 纯 函 数 的 角度 看 ， 归 约 是 通过 递归 定义 的 ， 因此 在 讲解 归 约 算 
法 之 前 ， 先 介绍 递归 。 

总 体 而 言 ， 函 数 式 语 言 的 编译 器 会 通过 将 尾 递归 调用 转换 为 循环 来 优化 递归 函数 , 进而 大 幅 
提升 函数 性 能 。 对 于 Python 语言 ， 纯 粹 的 递归 是 受 限 的 ， 必 须 手 动 优化 尾 调用 ， 也 就 是 显 式 地 
把 递归 调用 转换 为 for 循环 。 




































































本 章 会 介绍 归 约 算法 sum() 、count () 、max() 和 min() ， 还 会 介绍 collections .Counter () 
函数 以 及 相关 的 groupby () 函数 。 解 析 ( 以 及 文本 扫描 ) 其 实 是 一 种 归 约 ， 因 为 它们 将 标记 序列 
(或 者 字符 序列 ) 转换 成 了 包含 复杂 属性 的 高 阶 集合 。 














6.1 简单 数值 递归 
所 有 的 数值 计算 都 能 以 递归 的 方式 定义 。 可 访问 维基 百科 , 了 解 皮 亚 诺 公 理 的 更 多 相关 信息 。 


从 这 些 公理 中 不 难看 出 加 法 是 通过 一 个 更 基本 的 概念 ， 数字 nn 的 下 一 个 数 (也 称 “ 后 继 数 ”) 
S(n)， 以 递归 的 方式 定义 的 。 
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为 了 便于 理解 ， 首 先 定 义 前 置 函数 P(n)， 当 n#0 时， 该 函数 满足 n= S(P(n)) = P(S(n)) 。 














这 样 就 可 以 通过 递归 的 形式 定义 两 个 自然 数 之 间 的 加 法 了 ， 如 下 所 示 : 





i b a=0 
En 


如 果 用 更 常见 的 n+l 和 nn-1 代 蔡 S(n) 和 P(n)， 那么 有 add(a,b)=add(a-1,b+1)。 
可 以 将 上 述 公 式 转 换 为 Python 代码 ， 如 下 所 示 : 


def add(a: int,b: int) -> int: 
区 二 人 一 一 
return b 
else: 
return add(a - 1, b + 1) 


只 是 按 Python 语法 把 数学 符号 重 排 了 一 下 ， 无 他 。 


实际 上 ， 无 须 用 Python 写 函 数 实现 加 法 计算 ， 利 用 Python 已 有 的 功能 就 足以 实现 各 种 算术 
运算 了 。 举 这 个 例子 是 想 说明 能 以 递归 的 方式 定义 基本 的 标量 计算 ， 其 实现 也 不 复杂 。 
























































递归 定义 至 少 包 括 两 种 情况 : 非 递 归 情 形 〈 也 称 “ 基 础 情形 ”)， 直 接 返 回 确定 的 值 ; 递归 情 
形 ， 函 数 通 过 不 同 的 输入 参数 对 自身 的 调用 给 出 返回 值 。 


为 了 确保 递归 能 结束 ,必须 搞 清 楚 输 入 值 向 非 递归 参数 靠近 的 机 制 。 前 面 定 义 的 函数 中 虽然 
没 写 ， 但 输入 参数 往往 是 有 条 件 约束 的 。 例 如 在 前 面 定 义 的 aaa () 函数 中 ， 输 入 值 的 约束 是 : 


assert a >= 0 andq b >= 0。 


















































如 果 没 有 这 些 约束 ， 就 不 能 保证 a 取 -1 时 函数 向 a == 0 靠近 。 


6.1.1 实现 尾 调用 优化 
可 以 通过 递归 的 形式 把 许多 函数 简洁 明了 地 表达 出 来 , 其 中 最 典型 的 例子 是 factorial ()。 
用 Python 的 递归 形式 表示 如 下 : 























1 n=0 
nl!= 
nx(n—l)! n>0 


对 应 的 Python 实现 如 下 : 


def faet (ne? Tnt): = Tnts 
Lf 0 Ce 二 
else: return n * fact(n - 1) 
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该 实现 的 主要 优点 是 简洁 ,但 受制 于 Python 的 递归 蔡 套 数量 限制 ,无 法 进行 超过 fact (997) 
的 计算 。1000! 有 2568 位 数 ， 超 过 了 浮 点 数 的 最 大 值 。 在 某 些 系统 中 这 个 上 限 是 10””。 编 程 实 
践 中 ， 经 常 使 用 1og gamma 函数 处 理 过 大 的 浮 点 数 。 


该 函数 是 典型 的 尾 递归 形式 ,函数 体 的 最 后 一 个 表达 式 是 对 使 用 了 新 参数 的 自身 的 调用 。 优 
化 编译 器 能 用 循环 代 蔡 函数 调用 栈 ， 从 而 大 幅 提 高 计算 速度 。 


由 于 Python 没有 优化 编译 器 ,所 以 必须 考虑 对 它们 进行 优化 。 这 里 ,函数 从 nn 向 n-1 变化 ， 
因此 可 以 构造 一 个 序列 ， 通 过 归 约 计算 乘积 。 


如 果 不 考 虑 纯粹 的 函数 式 处 理 ， 可 以 定义 如 下 所 示 的 命令 式 计算 流程 : 


def facti(n: int) -> int: 
了 下: 的 二 区 EEUri"L 


全 二 中 
for i in range(2, n): 
在 二 二 


return f 


此 版 本 的 实现 能 进行 高 于 1000 1 的 计算 (例如 2000! 有 5733 位 数 )。 它 不 是 纯粹 的 函数 式 ， 
我 们 用 有 状态 的 循环 优化 了 尾 递归 ， 其 中 的 i 变量 用 于 保存 计算 过 程 的 状态 。 

总 的 说 来 ， 由 于 不 能 自动 进行 尾 调用 优化 ， 在 用 Python 编程 时 只 能 用 这 种 方法 。 但 有 些 情 
况 下 ， 这 样 的 优化 其 实 没 有 益处 ， 下 面 会 详 述 。 


















































6.1.2 ”保持 递归 形式 


有 些 情况 下 ， 递 归 形 式 的 定义 是 最 优 解 。 一 些 递归 实现 通过 分 治 策略 极 大 地 降低 了 工作 旱 ， 
例如 通过 平方 法 计算 寡 次 函数 ， 计 算 公 式 如 下 : 
































1 n=0 
a”=4axa”" nn 为 奇数 


(a2)? “4 为 偶数 
将 整个 计算 过 程 划分 为 3 种 情况 ， 用 Python 的 递归 形式 实现 如 下 : 


def fastexp(a: float, n: int) -> float: 

TE 0 

return 1 
[= 

return a * fastexp(a, n-1) 
else: 

t = fastexp(a, n // 2) 

ho Am 0 攻 二 
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函数 有 3 个 分 支 。 将 基础 型 式 fastexp (a，0) 的 返回 值 定义 为 1， 另 外 两 个 分 支 采用 不 同 
的 处 理 策略 ， 如 果 笑 次 为 奇数 ， 以 递归 形式 定义 返回 值 。 符 次 n 减 小 1， 属 于 简单 的 尾 递归 优化 
情形 。 
如 果 符 次 为 偶数 ， 则 使 用 n/2 计算 返回 值 ， 问 题 规模 缩小 为 原来 的 一 半 。 由 于 问题 规模 是 
折 半 缩小 的 ， 所 以 处 理 速度 会 明显 提升 。 

这 种 函数 无 法 简单 地 改 为 尾 调用 优化 循环 。 由 于 递归 形式 已 经 是 最 优 解 ,无须 进 一 步 优 化 了 。 
Python 的 递归 限制 是 xn<2”™”, 已 经 相当 大 了 。 

函数 的 类 型 标示 表明 参数 类 型 为 浮 点 数 ， 并 接收 整 型 参数 。 根 据 Python 的 类 型 转换 规则 ， 
当 需 要 处 理 这 两 类 数值 时 ， 使 用 浮 点 数 作 为 函数 类 型 标示 更 简单 。 
































6.1.3 ”处 理 复杂 的 尾 调 用 优化 
可 以 用 递归 的 形式 定义 斐 波 那 契 数列 。 第 n 个 辈 波 那 契 数 ,的 计算 公式 如 下 : 








0 n=0 
F,=41 n=1 
FPF,+F nz 二 2 

















将 斐 波 那 契 数 尺 定义 为 其 前 面 两 个 数 的 和 : 五, + ;,。 这 是 多 次 递归 的 典型 例子 ,无 法 用 
简单 的 尾 递 归 优 化 进行 转换 。 但 如 果 不 把 它 优化 成 尾 递 与 ， 计 算 速 度 会 慢 到 基本 不 可 用 。 


下 面 是 个 简单 的 实现 : 


def. 注定 二 :人 "int) 二 二 lint: 
TF Ts TELALILRO 
El eo eo 计 
return fib(n-1) + fib(n-2) 


由 于 是 多 次 递归 ， 当 需要 计算 fib (n) 时 ， 必 须 先 算出 fip(n - 1) 和 fip(n - 2)。 由 于 
计算 fip(n - 1) 时 重复 计算 了 一 次 fib(n - 2)， 导 致 斐 波 那 契 函数 的 实际 计算 增加 了 一 倍 。 
Python 是 从 左 向 右 依 次 对 表达 式 求 值 的 ， 最 大 可 以 计算 fib (1000) ， 但 实际 计算 这 么 大 的 
数 需要 非常 有 耐心 。 
下 面 改 写 整 个 算法 ， 用 有 状态 的 变量 代替 递归 。 
def fibi(n: int) -> int: 
i en Or return 从 


Ei ee 
ED EN a 
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for _ in range(3, n+1): 
在 -光环 
return f_n1l 





这 里 的 有 状态 版 本 从 0 向 上 计算 , 而 不 像 递 归 版 本 从 nn 向 下 计算 , 速度 会 比 递归 
版 本 快 得 多 。 

















需要 强调 的 是 ， 对 fib() 函数 的 递归 优化 没有 简便 方法 。 为 了 能 用 命令 式 版 本 代替 递归 版 本 ， 
必须 结合 具体 算法 ， 确 定 所 需 中 间 变 量 的 数量 。 


6.1.4 ”使 用 递归 处 理 集合 
也 可 以 用 递归 的 形式 定义 对 集合 的 处 理 ， 例 如 用 递归 的 形式 定义 map () 函数 ， 公 式 如 下 : 





[ len(c) =0 


map(f,C)= f,C[:—1]) append f(C[-1]) len(c)#0 




















对 空 集合 的 映射 结果 仍然 是 一 个 空 序列 , 对 非 空 集合 , 则 是 由 3 部 分 组 成 的 递归 形式 的 表达 
式 。 首 先 将 函数 应 用 于 除 最 后 一 个 元 素 外 的 集合 ,形成 一 个 新 序列 ,然后 对 集合 最 后 一 个 元 素 应 
用 函数 ， 最 后 将 返回 结果 追加 到 之 前 生成 的 序列 上 。 


先前 的 map () 函数 的 纯 递归 实现 如 下 : 


from typing import Callable, Sequence, Any 
def mapr( 
f: Callable[[Any], Any], 
collection: Sedquence [Any] 
) -> List[Any]: 
Lf Len (eolLLIeetidn) ss"0: Teturi 器 
return mapr (f, collection[:-1]) + [f(collection[-1])] 























map(f，[] ) 的 返回 值 是 一 个 空 列表 对 象 ， 当 输入 值 是 非 空 列表 时 ,首先 将 函数 应 用 于 列表 的 
最 后 一 个 元 素 , 然后 将 它 追 加 到 以 递归 形式 定义 的 列表 上 , 这 个 列表 是 函数 应 用 于 输入 序列 头 部 
形成 的 。 



































需要 说 明 的 是 ， 这 里 的 mapr () 函数 返回 一 个 列表 对 象 ， 类 似 于 Python 2 中 老 版 本 的 map () 
函数 。Python 3 的 map () 函数 返回 的 是 可 迭代 对 象 ， 而 不 是 列表 对 象 。 



































虽然 这 个 实现 很 简洁 ， 但 没有 尾 调 用 优化 。 如 果实 现 了 尾 调用 优化 ， 就 能 突破 调用 栈 深 度 
1000 的 限制 ， 并 大 幅 提升 处 理 速 度 。 


























callable[[aAny]，aAny] 是 比较 宽松 的 类 型 标示 ， 用 于 定义 领域 类 型 变量 和 范围 类 型 变量 
后 续 的 实例 中 会 用 到 它 。 
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6.1.5 ”集合 的 尾 调用 优化 


处 理 集合 大 致 有 两 种 方法 : 使 用 高 阶 函 数 ,返回 一 个 生成 器 表达 式 ， 或 者 创建 一 个 函数 , 用 
for 循环 依次 处 理 集合 中 的 每 个 值 。 这 两 种 方法 实际 上 很 类 似 。 

















下 面 是 一 个 类 似 于 Python 内 置 map () 函数 的 高 阶 函 数 : 


from typing import Callable, Iterable, Iterator, Any, TypeVar 


D_ = TypeVar("D_") 
R_ = TypeVar("R_") 
def mapf'( 
f: Callable[[D_], R_], 


C: Iterable[D_| 
) -> ILerator [R_] : 
elurn (f(x) fOr x Tn) 








返回 结果 是 一 个 实现 了 映射 处 理 的 生成 器 表达 式 ， 用 显 式 for 循环 实现 了 类 似 于 尾 调用 优 
化 的 效果 。 








数据 源 c 通过 类 型 标示 Iterable[D_] 强 调 映 射 域 的 类 型 。 映射 函数 的 类 型 标示 是 callable 
[[D_]，R_] ， 表 示 将 某 个 领域 类 型 映射 为 某 个 范围 类 型 。 以 float () 函数 为 例 ， 它 将 字符 串 域 
中 的 值 映 射 到 浮 点 数 范围 内 。 返 回 结果 的 类 型 标示 是 Tterator [R_] , 是 基于 某 个 范围 类 型 ( 即 
映射 函数 的 结果 类 型 ) 的 迭代 响 。 


实现 了 相同 功能 ， 具 备 相同 类 型 签名 的 生成 器 函数 如 下 : 


def mapg ( 
f: Callable[[D_], R_], 
C: Iterable[D_| 
) -> Iterator[R_] 
fT: Xi GR 
yield f(x) 




















这 里 使 用 了 完整 的 for 语句 来 实现 尾 调用 优化 。 返 回 结果 与 前 面 的 实现 一 致 。 由 于 包含 多 条 
语句 ， 运 行 速度 略 慢 。 

不 论 使 用 哪 种 方式 , 返回 结果 都 是 可 迭代 对 象 , 必须 通过 某 种 方法 从 可 迭代 的 数据 源 中 实例 
化 出 一 个 序列 对 象 ， 例 如 下 面 利用 1ist () 函数 实现 实例 化 : 


>>> list(mapg(lambda x: 2 ** x, [0, 1, 2, 3, 4])) 
[1, 2, 4, 8, 16] 





为 了 保证 性 能 和 伸缩 性 ， 需 要 对 Python 程序 进行 这 类 尾 调 用 优化 处 理 。 虽 然 这 种 实现 不 是 
纯粹 的 函数 式 , 但 它 带 来 的 好 处 远 抵 过 缺少 纯粹 性 的 损失 。 为 了 获得 函数 式 设计 简洁 明了 的 优势 ， 
需要 将 这 类 不 够 纯粹 的 函数 当 作 普 通 的 递归 使 用 。 




















这 意味 着 在 编程 实践 中 应 避免 在 集合 处 理 函 数 中 混入 有 状态 的 处 理 步 又 ( 这 会 弄 乱 整个 处 理 
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流程 )。 这样 即使 处 理 流程 的 某 些 部 分 不 是 纯粹 的 函数 式 ， 从 整个 处 理 流 程 看 ， 函 数 式 编程 的 核 
心 原 则 仍然 适用 。 























6.1.6 ”集合 的 归 约 与 折 又 : 从 多 个 到 一 个 
可 以 通过 下 面 的 方式 定义 sum() 函数 。 
空 集合 的 和 为 0， 非 空 集合 的 和 是 第 一 个 元 素 加 上 剩余 元 素 组 成 集合 的 和 。 





要 0 len(C)=0 
sum(C)= C[0]+sum(C[1:]) len(C)>0 


类 似 地 ， 以 递归 方式 计算 集合 乘积 分 以 下 两 种 情况 : 


1 len(C)=0 
C[0]xprod(C[1:]) len(C)>0 





prod(C)= | 








基础 型 式 定义 空 集合 的 乘积 为 1。 递 归 型 式 定义 非 空 集合 的 乘积 是 第 一 个 元 素 乘 剩余 元 素 组 
成 集合 的 乘积 。 


这 样 就 定义 了 序列 中 每 个 元 素 间 加 法 和 乘法 的 fold 操作 ， 并 且 由 于 是 从 右 向 左 处 理 集合 元 
素 ， 可 以 将 上 面 的 处 理 过 程 视 作 以 fold-righ 的 方式 将 集合 归 约 为 标量 值 。 


可 以 用 递归 的 形式 使 用 Python 计算 集合 的 乘积 ， 如 下 所 示 : 


def prodrc (collection: Sedquence [float]) -> float: 
if len(collection) == 0: return 1 
return collection{[0] * prodrc(collection[1:]) 


直接 把 数学 定义 转换 为 了 Python 代码 ， 从 技术 上 看 完全 正确 ， 但 这 个 实现 方法 不 够 理想 ， 
因为 计算 过 程 中 会 创建 大 量 中间 列 表 对 象 ， 而 且 只 能 处 理 集合 ， 不 能 处 理 可 迭代 对 象 。 


除 此 之 外 ,类 型 标示 中 使 用 了 float, 但 也 可 以 处 理 整 型 值 并 返回 整 型 值 。 在 这 样 的 数值 计 
算 函 数 中 ,将 float 用 作 通 用 的 类 型 标示 更 简便 。 


将 其 简单 修改 一 下 ,就 可 以 处 理 可 迭代 对 象 了 ,同时 避免 了 创建 任何 中 间 对 象 。 能 处 理 迭 代 
类 型 数据 源 的 递归 乘积 函数 如 下 所 示 : 


def prodri(items: Iterator [float]) -> float: 
ty 
head = next (items) 
except StopIteration: 
return 1 
return head * prodri (items) 


对 可 迭代 对 象 , 无 法 使 用 len () 函数 计算 其 元 素数 量 , 只 能 尝试 从 中 取出 第 一 个 元 素 。 如 果 
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其 中 没有 元 素 ， 尝 试 取 元 素 将 引发 StopIteration 异常 。 如 果 可 迭代 对 象 中 有 元 素 ,， 将 它 与 序 
列 中 剩余 元 素 的 乘积 相 乘 。 为 了 便于 理解 ， 这 里 显 式 地 用 iter () 函数 将 一 个 实例 化 的 序列 转换 
为 可 迭代 对 象 。 实 际 编码 过 程 中 如 果 可 迭代 对 象 直接 可 用 ， 就 不 必 再 转换 了 ， 示 例如 下 : 
>>> prodri(iter([1, 2, 3, 4, 5, 6, 7])) 
5040 
该 递归 实现 不 依赖 显 式 状态 ， 以 及 Python 的 其 他 命令 式 特性 。 虽 然 是 纯粹 的 函数 式 ， 但 它 
仍然 受 限 于 集合 大 小 不 能 超过 1000。 在 具体 的 编程 实践 中 ， 常 用 如 下 命令 式 结构 实现 递 昭 函数 : 
def prodi (items: Iterable[float]) -> float: 
六» 三 :2 下 
for n in items: 


p *= n 
return p 


此 版 本 不 再 受 限 于 递归 次 数 ， 实 现 了 尾 调 用 优化 ， 并 且 能 同时 处 理 序列 和 可 迭代 对 象 。 


在 其 他 函数 式 语言 中 ， 把 这 个 实现 称 为 fo1d1 ( 即 fo1d-1left ) 操作 ， 因 为 它 从 左 向 右 依 
次 处 理 可 迭代 集合 中 的 元 素 ， 与 之 相对 的 是 folar ( 即 fola-right ) 操作 , 也 就 是 从 右 向 左 依 
次 处 理 集合 中 的 元 素 。 


对 于 实现 了 优化 编译 句 和 惰性 求 值 的 语言 来 说 ，fold-left 和 foldq-right 的 区 别 在 于 创 
建 中 间 结 果 的 方式 。 这 一 差异 会 影响 计算 性 能 ， 但 通常 不 太 明 显 。fola-left 首先 处 理 序列 的 
第 一 个 元 素 ， 而 fo019-right 会 先 取出 第 一 个 元 素 ， 但 并 不 进行 处 理 ， 而 是 待 整个 序列 处 理 完 
后 再 处 理 此 元 素 。 




















































































































6.2 group-by 归 约 : 从 多 到 少 


数据 处 理 过 程 中 常 做 的 一 种 归 约 需要 先 按照 某 个 键 值 或 者 指标 对 数据 进行 分 组 。 在 SQL 中 ， 
通常 称 之 为 SELECT GROUP BY 操作 。 原 始 数据 按照 某 一 列 的 值 进 行 分 组 ， 然 后 对 其 他 列 的 值 进 
行 归 约 (有 时 是 累积 )。SQL 累积 函数 包括 SUM、COUNT 、MAX 和 MIN。 


统计 计算 中 的 众 数 是 对 某 个 独立 变量 进行 分 组 并 计算 其 出 现 次 数 。 首 先 用 Python 提供 的 方 
法 对 数据 进行 分 组 ,然后 对 分 组 数据 进行 归 约 。 下 面 先 研 究 分 组 数据 并 计算 频率 的 两 种 方法 , 再 
介绍 如 何 求 分 组 数据 的 其 他 特征 值 。 


仍然 使 用 第 4 章 的 旅行 数据 , 这 些 数 据 由 一 系列 包含 经 纬度 的 路 径 点 组 成 。 已 经 将 其 转换 为 
了 一 系列 包含 起 点 、 终 点 和 距离 的 路 径 段 ， 如 下 所 示 : 


37 O0490162.; 76%330295); (375840832; =76%2713834); T737246); 
31-840832; 046527383417 (38%331501; =76%.459503); 30.7382); 
38.33T500L :6%459503:) (38 a84550L3 6 3 331) sy. SLE: O056) 3 ere 
38.3301667 -76.458504); 389763347 =76.473503); 38;:8019)) 
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可 以 通过 有 状态 映射 或 者 实例 化 的 有 序 对 象 来 计算 一 组 数据 值 的 众 数 。 旅 行 数据 中 的 值 是 连 
续 的 , 为 了 计算 众 数 ,需要 将 距离 数据 量子 化 ， 也 称 分 箱 : 将 数据 分 组 ， 放 入 不 同 的 箱 中 。 分 箱 
技术 在 数据 可 视 化 应 用 中 也 很 常用 ， 这 里 以 5 海里 为 单位 设置 箱子 的 大 小 。 

可 以 用 下 面 的 生成 天 表达 式 计 算 量子 化 的 距离 : 


quantized = (5 * (dist // 5) for start, stop, dist in trip) 


每 个 距离 值 除 以 S， 丢 掉 余 数 ， 商 再 乘 以 5， 就 得 到 了 以 5 海里 取 整 后 的 距离 值 。 














6.2.1 用 counter 做 映射 


当 需 要 对 集合 按照 某 些 值 进行 分 组 并 计算 频次 时 ， 可 以 使 用 collections.counter 等 优 
化 工具 。 对 于 函数 式 编程 ,分 组 数据 的 典型 处 理 方式 分 为 两 步 ， 首先 对 原始 集合 排序 ， 然 后 用 一 
个 递归 循环 识别 出 每 一 组 的 开始 位 置 。 这 当中 涉及 实例 化 原始 数据 , 执行 一 个 复杂 度 为 O(n log nn) 
的 排序 ， 最 后 对 每 个 键 值 进行 归 约 ， 得 到 累积 值 或 者 频次 。 

下 面 的 生成 器 创建 了 分 箱 后 的 一 组 路 径 值 : 


quantized = (5 * (dist // 5) for start, stop, dist in trip) 
每 个 距离 值 除 以 5 取 整 再 乘 以 $S， 就 得 到 了 5 海里 的 倍数 。 
下 面 的 表达 式 创建 了 从 距离 到 频次 的 映射 : 


from collections import Counter 
Counter (Guantized) 


这 是 一 个 有 状态 的 对 象 ， 从 技术 上 看 ， 它 是 通过 命令 式 的 面向 对 象 编程 创建 出 来 的 , 但 它 看 
上 去 像 函 数 ， 也 符合 函数 式 编程 的 设计 理念 


打印 Counter (quantized) .most_common () 国 数 的 返回 值 ， 结 果 如 下 : 
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出 现 频次 最 高 的 距离 值 是 30 海里 ， 最 短 的 路 径 段 为 4 个 0 海里 ， 最 长 的 是 125 海里 。 


你 的 运行 结果 可 能 与 上 面 的 略 有 不 同 ， 因 为 most_common () 函数 是 按 频次 排序 的 ， 相 同 的 
频次 可 能 以 任意 顺序 输出 ， 所 以 下 面 5 个 长 度 的 出 现 顺序 可 能 会 不 同 。 


(35%50%, 3) "C9530% 5)s (L008 Ds 7200 3) L250 5) 
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6.2.2 ”用 排序 构建 映射 
如 果 不 考 虑 counter 类 ， 可 以 用 更 函数 式 的 方式 进行 排序 和 分 组 。 常 用 实现 如 下 : 


from typing import Dict, Any, Iterable, Tuple, List, TypeVar 
Leg = Tuplel[lAny, Any, float] 








T_ = TypeVar("T_") 
def group_ sortl1 (trip: Iterable[Leg]) -> Dictl[int, int]: 
def groupl( 


data: Iterable[T_] 
) -> Iterable[Tuple[T_ , int]]: 
previous, count = None, 0 
for d in sorted(data): 


if dQ se Drevious: 
count += 1 
elif previous is not None: # and Q != previous 
yield previous, count 
previous, count = d, 1 
elif previous is None: 
previous, count = d, 1 
else: 


raise Exception("Bad bad design problem.") 
yield previous, count 
quantized = (int(5 * (dist // 5)) for beg, end, dist in trip) 
return dict (group (quantized)) 


内 部 的 group () 函数 遍历 排序 后 的 数据 集合 ， 如 果 当 前 值 与 前 次 循环 值 一 致 ( 等 于 previous 
中 保存 的 值 )， 给 计数 器 加 1， 如 果 不 一 致 ， 并 且 前 次 循环 值 不 是 None， 说 明 新 的 键 值 出 现 了 。 
这 时 首先 返回 前 次 循环 值 及 其 计数 ， 然 后 创建 新 的 键 值 对 ， 键 是 当前 值 ， 值 是 计数 需 初 始 值 。 第 
三 种 情况 只 会 出 现 一 次 : 未 设置 前 次 循环 值 ， 这 是 循环 的 开始 状态 ， 应 保存 初始 值 。 


group () 图 数 包含 两 个 重要 的 类 型 标示 ， 数 据 源 是 基于 某 种 数据 类 型 (用 T_ 表示 ) 的 可 过 
代 对 象 ， 在 这 个 例子 中 是 整 型 ， 但 适用 于 任何 Python 类 型 。 由 于 返回 结果 中 同样 使 用 了 类 型 变 
量 T_ ， 可 知 group () 函数 的 返回 结果 中 包含 的 数据 类 型 与 数据 源 的 类 型 一 致 。 


group_sort11() 函数 的 最 后 一 行 基于 分 组 后 的 数据 创建 了 一 个 字典 。 与 counter 创建 的 
典 类 似 ， 主 要 区 别 在 于 counter 对 象 有 most_common () 方 法 ， 而 普通 的 字典 对 象 没 有 。 


条 件 分 支 elif previous is None 是 比较 笨拙 的 设计 ， 去 掉 它 难度 不 是 太 大 (并且 性 能 
会 略 有 提升 )。 


为 了 去 掉 该 elif 分 支 ， 需 要 调整 一 下 group () 函数 的 初始 化 方法 。 


def group(data: Iterable[T_]) -> Iterable[Tuple[T ，int]]: 
sorted_data = iter(sorted(data)) 
previous, count = next (sorted data), 1 
for d in sorted data: 
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if q == previous: 
count += 1 
elif previous is not None: # and d != previous 
yield previous, count 
previous, count = d, 1 
else: 
raise Exception("Bad bad design problem.") 
yield previous, count 


首先 从 排序 后 的 数据 中 取出 第 一 个 数据 ,作为 previous 的 初始 值 ,在 循环 中 处 理 剩余 的 值 。 
从 这 一 设计 思路 中 可 以 看 到 递归 方法 的 使 用 : 用 序列 的 第 一 个 值 做 递归 的 初始 值 , 每 次 递归 处 理 
一 个 值 ， 如 果 不 是 None 则 继续 递归 处 理 ， 和 否则 说 明 数 据 已 经 处 理 完毕 。 


除 此 之 外 , 用 itertools.groupby() 也 可 以 达到 相同 的 效果 ， 第 8 章 将 详细 介绍 该 函数 。 


























6.2.3 ”使 用 键 值 分 组 或 者 分 区 数据 


对 分 组 后 的 数据 做 何 种 归 约 是 没有 限制 的 。 数据 中 可 能 包含 一 些 自 变量 或 者 因 变 量 。 可 以 通 
过 自 变量 对 数据 进行 分 区 ,然后 计算 每 个 分 区 的 各 项 汇总 值 ， 包 括 最 大 值 、 最 小 值 、 平 均值 以 及 
标准 差 等 。 

对 数据 做 复杂 归 约 的 关键 是 保存 每 组 中 的 所 有 数据 。counter 函数 仅 收集 相同 数据 出 现 的 
频次 ， 我 们 需要 基于 键 值 将 原始 数据 转换 为 序列 。 


简 而 言 之 , 每 个 5 海里 的 箱子 中 都 保存 了 该 范围 内 路 径 段 的 所 有 数据 ,而 不 仅仅 是 出 现 次 数 。 
不 妨 将 分 区 看 作 递 归 ， 或 者 defaultdict (1ist) 对 象 的 有 状态 应 用 ， 下 面 介绍 groupby () 函 
数 的 递归 定义 ， 它 相对 简单 一 些 。 
显然 ，groupby(C，key) 函数 对 空 集合 c 的 返回 值 是 空 字典 aict () ， 或 者 一 般 而 言 ， 空 
defaultdict (1ist) 对 象 。 

对 于 非 空 集合 ， 首 先 处 理 集合 头 部 c[0] ， 然 后 递归 处 理 集合 尾部 c[1:]。 可 以 使 用 head， 
*tail = C 来 提取 集合 的 头 部 和 尾部 ， 如 下 所 示 : 


2 
人世 ad 二 -站 
>>> head 
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下 面 用 dict [key (head) ] .append(head) 将 头 部 元 素 放 人 结果 字典 中 ， 然 后 用 grouppy 
(tail，key) 方 法 处 理 剩 余数 据 。 


如 下 所 示 创 建 函 数 : 
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from typing import Callable, Sequence, Dict, List, TypeVar 
Ss ="TyVpeVar(™e.") 
KR. = TypeVvar("K ") 
def group_by( 
key: Callable[l[S_], K_], 
data: Seduence[S_ |] 
) -> Dict [KK TSS TJ] 


def group_intol( 
key: Callable[l[S_], K_], 
collection: Sedquence[S_] ， 
dictionarys: DicGt[RK 7 List[S.:]| 
) => Dict[K_, List[Ss_]]: 
if len(collection) == 0: 
return dictionary 
head, *tail = collection 
dictionary [key (head) ] .append (head) 
return group_into(key, tail, dictionary) 


return group_into(key, data, defaultdict (list)) 

内 部 函数 group_into() 实 现 了 核心 的 递归 定义 部 分 ， 当 集合 collection 为 空 时 返回 输 
入 的 字典 参数 。 非 空 集合 则 分 成 涉 部 和 尾部 ， 头 部 用 于 更 新 字典 ， 尾部 包含 所 有 剩余 元 素 ， 以 递 
归 方 式 更 新 字典 。 

类 型 标示 区 分 了 数据 源 类 型 s_ 和 键 类 型 k_。 作为 key 参数 的 函数 必须 接收 s_ 类 型 的 参数 ， 
返回 K_ 类 型 的 值 ,前 面 很 多 例子 都 包含 了 从 Leg 对 象 中 取出 距离 的 函数 ,套用 callable[ [Ss_]， 
K_] ， 数 据 源 类 型 s 是 Leg， 键 类 型 k_ 是 float。 

这 里 不 能 用 Python 的 默认 参数 将 上 面 的 函数 简化 为 简单 函数 ,例如 下 面 的 实现 方法 不 可 取 : 

def group_by (kev，dqata，dqictionary=dqefaultdict(1ist)) : 

这 样 写 的 话 ， 对 group_py () 函数 的 所 有 调用 都 将 使 用 同一 个 aefaultdict (LIist) 对 象 。 
Python 只 创建 一 次 默认 值 , 用 可 变 对 象 做 默认 值 ， 其 行为 往往 不 符合 开发 者 的 预期 。 这 里 选用 级 
套 函 数 作为 实现 方案 , 而 没有 使 用 不 可 变 的 默认 参数 ( 例如 None ) 结合 复杂 的 逻辑 判断 来 实现 。 
用 外 层 包 装 函数 初始 化 内 符 函 数 的 参数 。 

下 面 对 距 离 数 据 进行 分 组 : 


binned_ distance = lambda leg: 5 * (leg[2] // 5) 
by_distance = group_by (binned_ distance, trip) 


首先 定义 了 一 个 简单 上 且 可 复 用 的 匿名 函数 , 将 距离 数据 按照 5 海里 进行 分 箱 , 然后 利用 该 匿 
名 限 数 对 数据 进行 分 组 。 


检查 分 箱 后 的 数据 ， 如 下 所 示 : 
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import pprint 

for distance in sorted(by_distance): 
print (distance) 
pprint .pprint (by _ qistance[dqistance]) 





输出 结果 如 下 : 

0.0 

[B35 5095665, =76.653604)7. (359.508339y. =76..6549997);: 0Q.173L); 
04043520281757 二 76:682495)J7 '(35.031334; ~76%682663).; 0;1898); 
((25.4095, -77.910164), (25.425833, -77.832664), 4.3155)， 
和 0065957308167) (om080334 L733 2 

5.0 

[OCB8845501y =76.537331);. "(389928327.. =76%451332); 9. 7L5L); 
((34.972332, -76.585167), (35.028175, -76.682495), 5.8441),， 
03574160 S80520490) (3066333 =815471832), DL03), 
( (2905471333 18408165) sa: (295.504833 785232834). -9357L28); 
( (23%9539% .=/653L633). 245099667 .16»40L833)y 9%84 人 4 

125.0 

LOZT LOAL6Y7; =80.195663). ‘(29" L95168,. =81..002998), 129.57748.)] 


或 者 用 迭代 方法 实现 partition() 函数 ， 如 下 所 示 : 


from typing import Callable, Dict, List, TypeVar 
S_ = TypeVar("S_") 
K_ = TypeVar("K_") 
def partitiont( 
key: Callable[[S_] 
data: Iterable[S_] 
3 Biet [RK DESCES] | 
dictionary: Dict[K_, List[S_]] = defaultdict (list) 
for head in data: 
dictionary [key (head) |] .append (head) 
return dictionary 


进行 尾 调用 优化 时 , 命令 式 实现 的 核心 部 分 与 递归 定义 是 一 致 的 .前 面 已 经 分 析 了 这 行 代码 ， 
保证 改写 后 的 输出 与 之 前 一 样 。 其 余部 分 作为 解决 Python 递归 限制 的 常规 编程 实践 ， 与 之 前 的 
尾 调 用 优化 实现 是 一 致 的 。 

类 型 标示 区 分 了 数据 源 类 型 s_ 和 键 类 型 kK_。 请 注意 ，defaultqdict (1ist) 的 返回 值 要 用 
Dict[K_，List[S_]] 标 示 协 助 mypy 工具 确认 代码 正常 运行 ， 否 则 会 返回 错误 信息 : error: 
Need type annotation for variable。defaultdict 可 以 包含 任何 类 型 组 合 ， 如 果 没 有 
类 型 标示 ， 将 无 法 确认 是 否 使 用 了 正确 的 类 型 。 

也 可 以 把 这 里 的 类 型 标示 写成 注释 的 形式 ， 如 下 所 示 : 


dictionary = defaultdict (list) # type: Dict[K_, List[S_]] 


低 版 本 的 pylint 工具 要 求 必须 这 样 写 ， 因 此 推荐 使 用 1.8 及 之 后 的 版 本 。 
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6.2.4 编写 更 通用 的 group-by 归 约 


将 原始 数据 分 区 
靠 北 的 起 点 。 


首先 引入 如 下 辅助 函数 来 拆 解 元 组 : 


lambda S， 
end lambda s, e, d: e 
dist lambda s, e, d: ad 
latitude lambda lat, lon: 
longitude lambda lat, lon: lon 


每 个 辅助 孔 数 的 输入 值 是 一 个 元 组 ， 通过 * 运 算 算 符 将 元 组 中 的 每 个 元 素 拆 解 为 
2 当 把 元 组 的 元 素 拆 解 为 s、e 和 jp 这 
这 种 方法 比 tuple_arg[2] 方 式 更 明了 。 


如 下 所 示 使 用 这 些 辅助 参数 : 


point ((35.505665, 
start (*point) 
505665, -76.653664) 
end(*point) 
(35.508335, -76.654999) 
>>> dist(*point) 

0.1731 

>>> latitude(*start (*point)) 
35.505665 








后 , 就 可 以 对 每 个 分 区 中 的 数据 执行 多 种 归 约 操作 了 , 例如 提取 出 每 个 路 径 
段 中 最 




















start = PG 


lat 






































匿名 函数 的 多 
这 3 个 参数 后 ， 就 可 以 方便 地 按 名 称 得 到 返回 值 





>>> 
>>> 
(35 . 
>>> 


-76.653664), (35.508335，-76.654999)，0.1731) 





输入 数据 是 舱 套 三 元 组 , 按照 下 标 依次 为 起 点 、 终 点 和 距离 。 利 用 上 面 定义 的 辅助 函数 ， 就 
能 抽取 不 同 的 元 素 。 


这 些 辅 助 函 数 ， 提 取 每 个 箱子 中 起 点 最 靠 北 的 路 径 段 的 实现 如 下 所 示 : 


for distance in sorted(by_distance): 
loa eried eth 
distance, 
max(by_distance[ldistancel], 
key=lambda pt: latitude(* 





start (*pt)}) 
) 


首先 按 距 离 将 各 个 路 径 段 分 组 ， 用 这 些 路 径 段 作为 max ( 
数 是 一 个 从 路 径 段 中 提取 出 起 点 纬度 的 匿名 函数 。 


函数 的 输入 ， 这 个 函数 的 key 参 

















返回 结果 是 每 个 箱子 中 起 点 最 靠 北 的 路 径 段 列表 ， 如 下 所 示 : 

Q.0, (0355056657 <70.653664), (35.5508335. =76:654999); 0: L731) 

DO (88450 E76 33) (e923 /60ndD L332 .9% IL) 
10.0 ((36.444168, -76.3265), (36.297501, -76.217834), 10.2537) 
125.0 ((27.154167, -80.195663), (29.195168, -81.002998), 129.7748) 
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6.2.5 编写 高 阶 归 约 
下 面 介 绍 相对 复杂 的 高 i 最 简单 的 归 约 形式 是 从 集合 数据 中 算出 一 个 简单 的 标量 


值 。Python 内 置 了 归 约 函数 ， 包 括 any ( 


第 4 章 讲 过 ， 可 以 使 用 简单 的 归 约 函 
def s0(data: Sequence) -> float: 
return suml(l1 for x in data) 
def sll(data: Sequence) -> float: 
return sum(x for x in data) 
def s2(data: Sequence) -> float: 





、all()、 max()、 min()、sum() 和 1len() 


数 计算 很 多 统计 值 ， 如 下 所 示 : 


# or len(data) 


# or sum(data) 


return sum(x * x for x in data) 








使 用 几 个 简单 的 函数 ,就 可 以 定义 平均 值 、 标 准 差 、 归 一 值 、 修 正 值 其 至 最 小 线性 回归 函数 了 。 





上 面 最 后 
现 方法 : 


from typing import Callable, 
def sum _f( 
function: 
data: Iterable) 
return sum(function( 


个 简单 归 约 s2 


实 


x) 


其 中 有 一 个 参数 用 于 定义 转换 数据 方法 ， 


下 全 这 -这 


) 展示 了 如 何 基 于 已 有 归 约 函数 创建 高 阶 E 


Iterable, 


Callablel[l [Any], 
= £1Oats 





函数 ， 可 如 下 所 示 改 写 


Any 
float], 


in data) 


计算 结 





是 转换 后 的 数值 之 和 。 


对 于 该 函数 有 3 种 用 法 ， 可 得 到 不 同 的 和 ， 如 下 所 示 : 


N 
S 
S2 


sum_f (lambda x: 
sum_f (lambda x: 
sum_f (lambda x: 


使 用 简单 的 匿名 函 


1, 
x, 


data) 
data) 
Ry 


数 , 计算 》 _， 


# x 
# x 





Xx 


data) 


1 


大 类 0 
大 类 下 
相 ; 洋人 沁 


， 即 序列 长 度 ， 邓 ,x = 收 ,x ， 即 序列 和 ， 





以 及 Dm 


在 此 基础 上 , 添加 过 
除 无 效 数 据 如 下 所 示 : 


def sum filter_f( 
filter_f: Callable, 
function: Callable, 
return suml(function (x) 


执行 以 下 命令 可 


count_ 
sum_ 

Valid 
N 


data: 
EOE 


lambda x: 1 
lambda x: x 
lambda x: x is not None 


sum_filter_f(valid, count 


Xx”， 序 列 元 素平 方 和 ， 然 后 就 能 计算 出 标准 差 了 。 
二 滤器 来 扩展 该 算法 ,使 其 


其 能 去 除 序列 中 无 效 或 者 不 希望 保留 的 元 素 。 


Iterable) -> Iterator: 
in data if filter_ f(x)) 


过 滤 掉 None 值 并 计算 序列 和 : 


_，dqata) 
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这 段 代 码 演示 了 sum_filter_f() 函数 是 如 何 使 用 两 个 匿名 函数 的 。 其 中 过 滤 央 用 于 去 除 序 
列 中 的 None 值 ， 所 以 将 其 命名 为 valiq 以 体现 其 功能 。function 参数 是 执行 count 方法 或 
者 sum 方法 的 匿名 函数 ， 同 理 ， 计 算 平 方 和 也 很 方便 。 


需要 说 明 的 是 , 该 函数 与 其 他 高 阶 函数 类 似 , 返回 的 是 一 个 函数 ， 而 不 是 一 个 值 。 这 是 高 阶 
函数 的 一 个 核心 特征 ， 并 且 用 Python 易于 实现 。 














I 





6.2.6 ”编写 文件 解析 器 


可 以 将 文件 解析 看 作 归 约 。 许 多 语言 使 用 了 双 层 定义 : 语言 的 底层 标记 ,以 及 建 于 其 上 的 高 
级 结构 。 以 XML 文件 为 例 , 标签 、 标 签名 称 以 及 属性 名 称 构成 了 底层 语法 ，XML 描述 的 整体 结 
构 构 成 了 高 级 语法 。 


底层 的 文本 扫描 实际 上 是 对 单个 字符 的 归 约 ， 并 把 它们 分 组 为 标记 ， 用 Python 的 生成 器 函 
数 设 计 模 式 可 以 轻松 实现 。 和 常规 的 实现 方法 如 下 : 
def lexical_scan(some_ source): 
for char in some_source: 


if some pattern completed: yield token 
else: accumulate token 


可 以 使 用 底层 文件 解析 器 来 完成 这 部 分 工作 ,使 用 CSV、JSON 和 XML 库 处 理 细节 ， 我 们 
会 基于 这 些 库 开 发 高 级 解析 器 。 


沿用 双 层 设计 模式 ,底层 解析 带 生 成 原始 数据 的 正式 数据 结构 , 即 由 文本 元 组 组 成 的 迭代 融 ， 
兼容 多 种 格式 的 数据 文件 。 高 级 解析 器 则 负责 生成 可 供应 用 程序 使 用 的 对 象 ， 可 以 是 数字 元 组 、 
命名 元 组 或 者 其 他 类 型 的 Python 不 可 变 对 象 。 


第 4 章 用 到 了 一 种 底层 解析 器 ， 其 输入 是 KML 文件 ，KML 文件 是 XML 表达 地 理 位 置信 息 
的 一 种 格式 。 解 析 需 的 核心 功能 如 下 : 
def comma_split (text: str) -> List[lstr]: 


return text.split(",") 
def row_iter kml (file _ obj: TextIO) -> Iterator[List[lstr]]: 




































































ema: S: 二 
"ns0": "http://ww.opengis.net/kml/2.2", 
"nsl": "http://ww.google.com/kml/ext/2.2"} 
xpath = ( 


"./ns0:Document /ns0:Folder/" 
"ns0:Placemark/ns0:Point/ns0:coordinates") 
doc = XML.parse (file_obj) 
return ( 
comma_split (cast (str, coordinates.text)) 
for coordinates in doc.findall (xpath, ns_map) 


) 
row_iter_kml () 困 数 解析 XML 文件 的 方法 是 通过 doc .findall () 郴 数 遍历 文档 中 所 有 
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的 <ns0:coordinates> 标 签 ， 然后 通过 comma_split () 函数 将 标签 中 的 文本 转换 为 三 元 组 。 























cast () 函数 的 作用 是 为 mypy 标示 出 coordinates .text 是 字符 串 类 型 值 ，kext 属性 的 
默认 类 型 是 Union [str，bytes]， 但 这 里 只 有 字符 串 这 种 情况 。cast () 不 执行 任何 运行 时 操 
作 ， 仅 用 作 mypy 的 类 型 标示 。 


该 解析 器 可 以 处 理 标准 化 的 XML 结构。 输入 文档 必须 满足 数据 库 设计 中 第 一 范式 的 要 求 ， 
即 每 个 属性 必须 满足 原子 化 和 单一 值 的 要 求 ，XML 数据 的 每 一 行 拥有 相同 的 列 ， 每 列 中 元 素 的 
类 型 一 致 。 数 据 的 值 并 非 完 全 原子 化 的 , 需要 用 去 号 分 隔 为 经 度 、 纬 度 和 海拔 高 度 的 原子 字符 串 。 
但 文本 类 型 完全 一 致 ， 符 合 第 一 范式 。 


将 大 量 数据 (包括 XML 标签 、 属 性 以 及 其 他 标记 符号 ) 归 约 为 相对 少量 的 信息 ， 即 浮 点 数 
类 型 的 经 度 和 纬度 ， 所 以 解析 器 实际 上 进行 的 是 某 种 归 约 计算 。 


现在 需要 将 元 组 中 的 字符 串 转换 为 浮 点 数 ， 去 掉 海 拔高 度 , 调整 经 纬度 顺序 ， 从 而 得 到 符合 
应 用 程序 要 求 的 元 组 格式 ， 具 体 变 换 过 程 如 下 所 示 : 
def pick_lat_lon( 


lon: Any, lat: Any, alt: Any) -> Tuplel[lAny, Anyl]: 
return lat, lon 

































































def float_lat_lon( 
row_iter: Iterator[Tuple[lstr, ...]] 
) -> Iterator[Tuplel[lfloat, ...]]: 
return ( 
tuplel 
map (float, pick_lat_lon(*row)) 





) 
for row in row_iter 


) 


关键 所 在 的 fl1oat_lat_lon () 是 高 阶 函数 , 返回 生成 器 表达 式 。 其 中 生成 器 使 用 map () 函 
数 将 float () 函数 应 用 于 pick_lat_lon () 函数 的 返回 结果 , 参数 *row 将 行 数据 元 组 的 每 个 元 
素 取出 作为 pick_lat_lon() 函数 的 各 个 参数 ， 所 以 只 有 每 行为 三 元 组 时 才 可 用 。 
pick_lat_lon () 水 数 再 对 输入 值 进行 第 选 和 重新 排序 ， 返 回 符合 要 求 的 元 组 。 


如 下 所 示 使 用 解析 器 : 


name = "file:./Winterg202012-2013 .kml" 
with urllib.request.urlopen(name) as source: 
trip = tuple(float_lat_lonl(row_ iter_ kml (source))) 


返回 结果 是 从 原来 KML 文件 中 转换 来 的 路 径 上 的 一 系列 路 径 点 ， 每 个 点 采用 府 套 元 组 的 形 
式 。 使 用 底层 解析 器 从 原始 数据 中 抽取 行文 本 ， 再 使 用 高 级 解析 器 将 文本 转换 为 浮 点 数 元 组 ,这 
里 没有 执行 任何 验证 。 
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1. 解析 CSV 文件 


第 3 章 介 绍 了 男 一 个 解析 非 标 准 CSV 文件 的 例子 。 当 时 为 了 去 掉 文 件 头 ， 使 用 了 一 个 简单 
的 函数 提取 文件 涉 ， 然 后 返回 了 包含 剩余 行 数据 的 迭代 峰 。 








原始 数据 如 下 所 示 : 

Anscombe's quartet 

I 工 工 工 工 工 IV 

Xx 六 Xx Y Xx YY Xx YyY 

T1070 8.04 10.0 9 14 10;0 7.46 8.0 6.58 
8.0 G95 8.0 8.14 8.0 6.77 8.0 S76 

5 5.68 S50 4.74 5;s'0 Sp 8.0 6.89 





数据 之 间 以 Tab 字符 分 隔 ， 文 件 前 3 行 是 需要 去 掉 的 文件 头 部 分 。 


下 面 是 CSV 解析 器 的 另 一 个 版 本 ， 我 们 通过 3 个 函数 来 实现 。 第 一 个 函数 row_iter() 返 
回 包含 Tab 分 隔 符 的 迭代 器 ， 如 下 所 示 : 
def row_iter_ csv(source: TextIO) : 


rdr= csv.reader (source, delimiter="\t") 
return rdr 




















只 是 简单 地 包装 了 CSV 文件 解析 器 , 之 前 实现 过 的 XML 和 普通 文本 解析 器 并 不 包含 这 一 部 
分 。 解 析 器 处 理 标准 格式 数据 的 常规 方法 是 创建 基于 行 元 组 的 迭代 器 。 

得 到 行 元 组 后 ,就 可 以 保留 包含 可 用 数据 的 行 ， 去 掉包 含 其 他 元 数据 的 行 , 例如 标题 和 列 名 
称 。 这 里 需要 引入 一 个 用 于 解析 的 辅助 函数 ， 以 及 用 于 验证 行 数据 的 过 滤 函 数 。 
































转换 函数 如 下 所 示 : 

from typing import Optional, Text 

def float_ none(data: Optional[Text]) -> Optionall[lfloat]: 
trYs 


data_f = float (data) 
return data_f 

except ValueError: 
return None 


该 函数 负责 将 格式 正确 的 字符 串 转 换 为 浮 点 数 ， 将 无 效 数据 转换 为 None。 类 型 标示 
Optional[Text] 和 Optional [float] 表 示 对 应 值 是 符合 类 型 定义 的 普通 值 或 者 None 值 。 


下 面 把 该 函数 般 入 到 一 个 映射 中 ， 从 而 将 整 行 数据 转换 为 浮 点 数 或 者 None 值 ， 该 匿名 函数 
如 下 所 示 : 
from typing import Callable, List, Optional 


R_Text = List[Optional[Text]] 
R_Float = List[Optional[float]] 
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float_row: Callable[[R_Text], R_Float] \ 
= lambda row: list(map(float_ none, row)) 








两 个 类 型 标示 显 式 定义 了 float_rowoR_ Text 定义 了 行 数据 的 文本 版 本 是 个 包含 了 文本 值 
和 None 值 的 列表 。R_Float 定义 了 行 数据 的 实数 版 本 。 

















下 面 是 一 个 行 级 验证 器 ， 使 用 all () 函数 确保 所 有 值 都 是 浮 点 数 (或 者 说 没有 None 值 ): 


all_numeric: Callable[l[R_Float], bool] \ 
= lambda row: all(row) and len(row) == 8 





该 匿名 函数 属于 归 约 函数 ， 将 一 行 实数 归 约 为 一 个 布尔 值 。 如 果 这 些 数 据 都 不 为 “ 假 ”( 既 
不 是 None 值 ， 也 不 是 零 值 )， 并 有 目 个 数 正好 是 8， 则 返回 布尔 “ 真 ” 值 。 















































上 面 这 个 简化 版 的 a11_numeric 函数 不 区 分 零 值 和 None 值 。 更 准确 的 测试 条 件 应 该 类 似 
于 not any (item is None for item in row)， 具 体 实现 留 给 读者 作为 练习 。 




















该 函数 设计 的 核心 目标 是 创建 基于 行 的 元 素 , 并 将 其 整合 到 完整 算法 中 以 解析 输入 文件 。 基 
本 函数 迭代 处 理 文本 元 组 , 联合 起 来 对 结果 数据 进行 转换 及 验证 。 对 于 满足 第 一 范式 ( 所 有 行 相 
同 ) 或 者 可 以 通过 简单 方法 排除 异常 数据 行 的 情况 ， 该 函数 表现 不 错 。 








但 大 多 数 解 析 工 作 不 会 这 么 简单 。 有 些 文件 的 头 部 或 者 尾部 包含 重要 数据 ,虽然 与 其 他 部 分 
的 格式 不 同 ， 却 不 能 简单 地 丢弃 ， 需 要 用 更 复杂 的 解析 器 处 理 这 类 非 标准 文件 。 


2. 解析 带 文件 头 的 普通 文本 文件 
第 3 章 有 个 没有 经 过 解析 处 理 的 crayola .GPL 文件 ， 如 下 所 示 : 


GIMP Palette 

ame: Crayola 

Columns: 16 

# 

239 222 205 Almond 

205: 719 117 Antique Brass 








可 以 使 用 正则 表达 解析 文本 文件 。 首 先 用 一 个 过 滤器 读 取 并 解析 文件 头 ， 然 后 返回 一 个 包含 
数据 行 的 可 和 迭代 序列 。 这 个 复杂 的 二 步 解 析 顺 完全 是 基于 由 两 部 分 (文件 头 和 尾 ) 组 成 的 文件 结 
构 定 义 的 。 





如 下 底层 解析 需 可 以 处 理 包含 4 行文 件 头 和 大 量 尾 部 数据 行 : 


Head_Body = Tuple[Tuple[lstr, str], Iterator[List[lstr]]] 
def row_iter_ gpl (file obj: TextIO) -> Head_ Body: 
header_pat = re.compilel 
r"GIMP Palette\nName:\s*(.*?)\nColumns:\s*(.*?)\n#\n", 
re.M) 
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def teadq_head( 
file_obj: TextIO 
) -> TuplelTuple[str，Str] ，TextIO] : 
match = headqer_pat.match( 


"".join(file obj.readline() for _ 


) 


return (match.group(1), match.group(2 


def read_ taill 
headers: Tuplel[lstr, str], 
file_obj: TextIO) -> Head_ Body: 
return ( 
headers, 
(next_line.split() for next_line 


) 


return read tail(*read head(file obj)) 


in range(4)) 


)), file_obj 


in file_obj) 








Head_Body 类 型 定义 了 行 迭 代 器 的 整体 实现 目标 





， 返 回 结果 是 个 二 元 组 。 其 中 第 一 个 元 素 








也 是 一 个 二 元 组 , 包含 从 头 部 提取 的 信息 , 第 二 个 元 素 是 一 个 包含 颜色 信息 的 迭代 右 。 下 面 的 函 


数 有 两 处 用 到 了 这 个 Head_Body 类 型 定义 。 


header_pat 是 一 个 用 于 解析 前 4 行文 件 头 的 正则 表达 式 , 表达 式 中 的 两 个 括号 用 于 提取 头 


部 的 名 称 和 列 数 信息 。 





接 下 来 定义 了 两 个 内 部 函数 来 解析 文件 的 不 同 部 分 。read_head () 函数 解析 文件 头 ， 有 具体 
过 程 是 : 首先 读 取 文 件 的 前 4 行 , 将 其 合并 为 一 个 字符 串 ,， 然后 用 headq_pat 正则 表达 式 进行 解 





析 ， 返 回 结果 包含 了 文件 头 中 的 两 部 分 数据 ， 以 及 处 理 
一 个 函数 返回 迭代 器 作 为 另 一 个 函数 的 输入 参数 ， 





LE 镜 余 行 的 迭代 器 。 
基于 在 函数 间 传 递 状态 对 象 的 设计 思想 ， 




















但 它 只 能 算 作 一 个 简化 实现 , 因为 read_tail() 函数 的 输入 参数 正 是 read_head () 函数 的 输出 。 


reada_tail() 函数 解析 文件 的 剩余 行 ， 按 照 GPL 
字符 串 。 


文件 格式 的 定义 来 解析 ， 基 于 空格 符 分 割 


6 更 多 信息 ， 可 访问 https://code.google.com/p/grafx2/issues/detail?id=518。 





当 把 文件 中 的 每 行文 本 解析 为 一 系列 字符 串 元 组 后 , 就 可 以 用 高 阶 函 数 进行 后 续 处 理 了 , 包 


括 转换 和 验证 ( 如 车 需要 )。 
高 阶 和 解析 函数 示例 如 下 : 


from typing import NamedTuple 
class Color (NamedTuple): 

red: int 

blue: int 
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green: jint 
name: str 


def color_palettel 

headers: Tuplelstr, str], 
row_iter: Iterator[List[str]] 

} = TuUpLSelStry ‘Str TupLlelColory .0] 1]: 

name, columns = headers 

colors = tuplel 
Color(int(r), int(g), int (bp), " ".join(name)) 
for r, g, b, *name in row_iter) 

return name, columns, colors 


该 函数 所 需 的 头 部 数据 与 迄 代 器 由 底层 函数 row_iter_gp1l () 提供 。 使 用 多 重 赋值 将 颜色 
数据 与 剩余 的 名 称 分 开 ， 分 别 赋 给 4 个 变量 +、g、b 和 name。 使 用 *name 形式 的 参数 以 确保 所 
有 剩余 数据 都 会 以 元 组 的 形式 赋 给 保存 名 字 的 变量 。 最 后 " " . join (name) 将 这 些 单词 用 空格 连 
接 起 来 组 成 一 个 完整 的 字符 串 。 


如 下 所 示 使 用 该 双 层 解析 器 : 


with open("crayola.gpl") as source: 
name, cols, colors = Color_palette( 
*row_iter_gpl (source) 























) 


print (name, cols, colors) 


对 底层 函数 的 处 理 结果 应 用 高 阶 函 数 ， 最 终 的 返回 结果 是 文件 头 数据 和 一 系列 color 对 象 
组 成 的 元 组 。 








6.3 小结 


本 章 讨 论 了 函数 式 编程 的 两 个 重要 主题 。 首 先 详细 介绍 了 递归 技术 , 许多 函数 式 编程 语言 编 
译 器 会 将 递归 函数 的 尾 调用 转换 为 循环 ,但 在 Python 中 ， 我 们 需要 手动 将 纯 函 数 的 递归 转换 为 
显 式 for 循环 ， 以 实现 尾 调用 优化 的 效果 。 


然后 介绍 了 归 约 函数 ， 包 括 sum() 、count ()、max() 和 min() ， 以 及 与 集合 相关 的 
collcetions.Counter() 和 groupby () 归 约 函数 。 


由 于 文本 解析 是 将 标记 序列 ( 或 者 字符 串 序列 ) 转换 为 带 有 复杂 属性 的 高 阶 集合 ， 所 以 本 质 
上 也 属于 归 约 。 常 用 的 设计 模式 是 将 整个 解析 过 程 分 为 底层 解析 函数 和 高 级 解析 函数 ,前 者 将 原 
始 字 符 串 转换 为 元 组 ， 后 者 在 此 基础 上 创建 符合 应 用 格式 要 求 的 对 象 。 

下 一 章 将 介绍 与 命名 元 组 以 及 其 他 不 可 变数 据 结构 相关 的 处 理 技术 , 这 样 应 用 程序 就 不 再 需 
要 有 状态 的 对 象 了 。 有 状态 对 象 不 是 纯粹 函数 式 的 ， 但 借鉴 类 继承 的 思想 ， 我们 可 以 将 相关 函数 
定义 组 织 在 一 起 。 
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前 面 的 例子 有 的 是 标量 函数 ， 有 的 是 用 基本 元 组 创建 一 些 相 对 简单 的 结构 。 在 Python 中 ， 
经 常用 不 可 变 的 命名 元 组 ( typing .NamedTuple ) 创建 复杂 的 数据 结构 。 


面向 对 象 编程 的 一 个 优点 是 可 以 渐进 地 创建 复杂 的 数据 结构 。 有 时 对 象 用 作 保 存 函 数 计算 结 
果 的 缓存 , 这 种 情况 很 符合 函数 式 设 计 模 式 的 思想 。 有 时 对 象 的 属性 方法 中 定义 了 基于 对 象 属性 
获得 数据 的 复杂 计算 过 程 ， 同 样 可 以 方便 地 转换 为 函数 式 设 计 。 


而 在 某 些 情 况 下 , 对 象 类 定义 了 如 何 通过 状态 变化 创建 复杂 对 象 。 我 们 将 介绍 几 种 方法 降低 
有 状态 对 象 导致 的 复杂 度 ， 首先 识别 出 有 状态 的 类 定义 , 然后 引入 元 属性 实现 方法 按 序 调用 , 例 
如 “如 果 调 用 xX.p() 先 于 xX.gq()， 则 返回 结果 为 undefined” 这 类 语句 不 属于 语言 形式 ， 而 是 
类 的 元 属性 。 有 些 有 状态 类 中 包含 显 式 断 言 , 或 者 用 于 保证 方法 调用 顺序 的 错误 检查 所 产生 的 开 
销 ， 如 果 不 使 用 有 状态 类 ， 就 可 以 避免 这 些 额 外 的 开销 。 
本 章 将 介绍 以 下 内 容 。 
口 如 何 创建 并 使 用 命名 元 组 。 
口 用 不 可 变 的 命名 元 组 代替 有 状态 的 对 象 类 的 方法 。 
口 不 依赖 多 态 类 而 编写 抽象 函数 的 技术 。 当 然 ， 可 以 基于 callable 类 创建 多 态 类 继承 结 
构 ， 但 在 某 些 情 况 下 ,使 用 函数 式 设计 可 以 避免 这 些 不 必要 的 开销 。 






























































7.1 使 用 元 组 收集 数据 


第 3 章 介 绍 了 两 种 常用 的 处 理 元 组 的 技术 , 并 简单 介绍 了 处 理 复杂 结构 的 第 三 种 方法 。 根 据 
具体 场景 ， 可 选用 下 面 任 一 种 : 


口 使 用 匿名 函数 ， 通 过 下 标 取 值 ; 
口 使 用 匿名 函数 ， 通 过 带 星 号 的 参数 将 参数 名 称 映 射 到 下 标 来 取 值 ; 
口 使 用 命名 元 组 ， 通 过 属性 名 称 或 者 下 标 取 值 。 
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第 4 章 的 旅行 数据 就 是 一 个 复杂 结构 的 例子 ,原始 数据 是 由 位 置 点 组 成 的 普通 时 间 序 列 。 为 
了 计算 距离 ,我 们 将 上 述 数据 转换 成 了 一 系列 路 径 段 ， 每 个 元 素 是 由 起 点 、 终 点 和 距离 组 成 的 三 
元 组 。 


每 个 路 径 段 形 如 下 面 的 三 元 组 : 


first_leg = ( 
(37. 5490L6y =76.330295); 
(37.840832, -76.273834)， 
17.7246) 


第 一 项 和 第 二 项 分 别 代表 起 点 和 终点 , 第 三 项 代表 两 点 间 的 距离 。 这 是 Chesapeake Bay 两 地 
间 的 短途 旅行 。 


藤 套 元 组 可 读 性 不 佳 ， 比 如 first_leg [0] [0] 很 不 容易 理解 。 


除了 元 组 之 外 的 其 他 三 种 取 值 方法 , 第 一 种 方法 是 定义 一 个 简单 的 选择 函数 , 通过 下 标 位 置 
取 值 。 


start = lambda leg: leg[0] 
end = lambda leg: leg[1] 
distance = lambda leg: leg[2] 
latitude = lambda pt: pt[0] 
longitude = lambda pt: pt[1] 


基于 上 面 的 函数 ， 可 以 用 latitude (start (first_leg) ) 取 特定 的 值 ， 如 下 所 示 : 


>>> latitude(start (first_leg)) 
29.050501 


上 面 的 定义 没有 提供 关于 返回 结果 的 数据 类 型 的 信息 ,可 以 按照 命名 规则 改进 定义 。 为 函数 
名 称 增加 后 绥 的 定义 如 下 所 示 : 
start_point = lambda leg: leg[0] 


distance_ nm = lambda leg: leg[2] 
latitude value = lambda point: point[0] 


运用 得 当 的 话 这 种 方法 很 有 用 ,也 可 以 用 复杂 的 匈牙利 命名 法 设置 前 级 (或 者 后 级 ) 为 各 个 


量 命名 。 


为 匿名 函数 添加 类 型 标示 有 点 画蛇添足 ， 可 做 如 下 尝试 : 


>>> from typing import Tuple, Callable 

>>> Point = Tuple[float, float] 

>>> Leg = Tuple[Point, Point, float] 

>>> start: Callable[[Leg], Point] = lambda leg: leg[0] 


类 型 标示 作为 赋值 语句 的 一 部 分 , 告知 mypystart 对 象 是 可 调用 函数 , 接收 类 型 为 Leg 的 
参数 ， 返 回 结果 的 类 型 为 Point。 
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第 二 种 方法 是 用 带 星 号 的 参数 隐藏 下 标 位 置 。 使 用 了 * 标 记 的 函数 示例 如 下 : 


start = lambda start, engd, distance: start 

end = lambda start, end, distance: end 

distance = lambda start, end, distance: distance 
latitude = lambda lat, lon: lat 

longitude = lambda lat, lon: lon 





基于 以 上 函数 ， 可 以 用 1atitugde (*start (*first_leg)) 从 原始 数据 中 取 值 ， 如 下 所 示 : 


>>> latitude(*start (*first_ leg)) 
29.050501 














这 种 方法 的 优点 是 可 读 性 较 好 , 位 置 和 名 称 之 间 的 关系 由 一 组 参数 名 称 定 义 。 虽然 在 元 组 参 
数 前 面 加 上 星 号 使 得 函数 看 上 去 有 点 别扭 , 但 星 号 运算 符 是 必要 的 , 它 抽取 元 组 中 各 个 元 素 并 将 
其 分 别 赋 给 函数 的 每 个 参数 。 

这 种 方式 更 为 函数 式 , 但 选择 单个 属性 的 语法 容易 混淆 ,Python 提供 了 一 种 面向 对 象 风格 的 
替代 方案 : 命名 元 组 。 


7.2 使 用 命名 元 组 收集 数据 
将 数据 收集 到 复杂 数据 结构 中 的 第 三 种 方法 是 使 用 命名 元 组 , 基本 的 思路 是 创建 一 种 带 名 称 
属性 的 元 组 ， 有 如 下 两 种 实现 方法 ; 


口 使 用 collections 模块 的 namedtuple 限 数 ; 
口 typing 模块 的 NamedTuple 基 类 ， 这 种 方式 支持 类 型 标示 ， 本 书 基 本 上 只 用 这 种 方法 。 


前 面 章节 的 例子 中 命名 元 组 类 定义 如 下 : 


from typing import NamedTuple 




































































class Point (NamedTuple): 
latitude: float 
longitude: float 


class Leg (NamedTuple): 
start: Point 
end: Point 
distance: float 


这 样 原 来 的 匿名 元 组 的 每 个 属性 都 有 各 自 的 类 型 标示 了 ， 示 例如 下 : 


>>> first leg = Leg( 
. Point(29.050501, -80.651169), 
. Point(27.186001, -80.139503), 
ues L151751) 
>>> first leg.start.latitude 
29.050501 
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first_leg 对 象 的 类 型 是 NamedTuple 类 的 子 类 Leg， 这 个 类 包含 了 另外 两 个 命名 元 组 和 
一 个 实数 。 用 first_leg.start.latitude 就 可 以 获取 元 组 结构 的 指定 数据 ， 这 种 从 前 缀 也 
数 方式 到 后 级 属性 方式 的 变化 ， 既 可 以 看 作 一 种 强调 ， 也 可 以 看 作 某 种 让 人 困惑 的 语法 变化 。 











用 Leg () 和 Point () 函数 代替 tuple () 函数 很 重要 ， 它 改变 了 构造 数据 结构 的 流程 ， 并 且 
为 mypy 提供 了 明确 的 命名 结构 来 验证 类 型 标示 是 否 正 确 。 


从 源 数据 种 创建 点 对 的 方法 如 下 : 


from typing import Tuple, Iterator, List 


























def float_lat_lon tuplel 


row_iter: Iterator[List[str]] 
) -> Iterator[Tuplel]: 
return ( 


tuple(*map (float, pick_lat_lon(*row))) 
for row in row_iter 


) 


它 处 理 一 个 迭代 器 (例如 CSV 读 取 器 或 者 KML 读 取 带 ) 给 出 的 一 系列 字符 串 ， 


pick_lat_lon() 函 数 从 行 字 符 串 中 取出 两 个 值 ,map () 函数 将 fl1oat () 函数 应 用 于 这 些 取出 的 
值 ， 返 回 结果 是 普通 的 元 组 。 


























为 了 创建 Point 对 象 ， 要 对 上 面 的 函数 做 如 下 更 改 : 


def float_lat_lon( 
row_iter: Iterator[List[str]] 
) -> Iterator[Point]: 
return ( 
Point (*map (float, pick_lat_lon(*row))) 
for row in row_iter 


) 





用 Point () 构 造 函 数 代 替 了 tuple() 函数 ,返回 的 数据 类 型 也 相应 地 变 成 了 Tterator [Point]， 
表明 函数 构造 的 是 实数 坐标 组 成 的 点 对 象 ， 而 不 是 匿名 元 组 。 





可 以 采用 类 似 的 方法 构建 旅行 数据 的 完整 Leg 对 象 ， 如 下 所 示 : 


from typing import cast, TextIO, Tuple, Iterator, List 

from Chapter_6.ch06_ex3 import row_iter_ kml 

from Chapter_4.ch04 exl import legs, haversine 

source = "file:./Winter%202012-2013.kml" 

def get_ trip(url: str=source) -> List[Leg] : 
with urllib.request.urlopen(url) as source: 

path_iter = float_lat_lon(row_iter_ kml( 
cast (TextIO, source) 





) ) 
pair_iter = legs (path iter) 


114 第 7 章 元 组 处 理 技术 





信 于 全 下 从 闪 
Leg(start, end, round(haversine(start, end), 4)) 
for start, end in pair_iter 
) 
起 区 全 = LiSt(tr1io Lter) 
return trip 


整个 处 理 过 程 由 一 系列 生成 器 表达 式 组 成 。path_iter 对 象 使 用 两 个 生成 器 函数 row_ 
iter_kml() 和 float_lat_lon() 从 KML 文件 中 读 取 每 行文 本 ,提取 数据 并 将 其 转换 为 Point 
对 象 。pair_iter 对 象 使 用 legs () 生成 器 函数 创建 代表 每 段 路 径 起 点 和 终点 的 Point 对 象 二 
元 组 。 

trip_iter 将 Point 二 元 组 转换 为 最 终 的 Leg 对象，List () 函数 再 将 这 些 对 象 变 为 一 个 
Leg 序列 ， 第 4 章 中 定义 的 haversine() 函数 负责 计算 起 点 和 终点 间 的 距离 。 

cast () 函数 用 于 通知 mypy 工具 source 对 象 是 rextIo 类 的 一 个 实例 。cast () 函数 是 
一 个 类 型 标示 ， 不 包含 运行 时 操作 。 由 于 urlopen () 返 回 值 的 类 型 是 Union [HTTPResponse， 
addinfourl] ， 所 以 cast () 函数 是 必需 的 。addinfourl 对 象 的 类 型 是 BinaryI0。 
csv.reader () 要求 输入 参数 的 类 型 为 List [str]， 需 要 urlopen () 提供 文本 而 非 字 节 。 对 于 
简单 的 CSV 文件 来 说 ， 字 节 和 UTF-8 编码 的 文本 的 差别 不 大 ,使 用 cast () 即 可 。 


为 了 能 正确 处 理 字 节 ， 需 要 使 用 cogecs 模块 将 字 节 转换 为 正确 编码 的 文本 ， 如 下 所 示 : 


cast (TextIO, codecs.getreader('utf-8') (cast (BinaryIO, source))) 
















































































最 内 层 的 cast () 函数 用 于 通知 mypy 工具 source 的 类 型 是 BinaryI0。codecs.getreader () 
创建 能 正确 处 理 UTF-8 编码 的 读 取 器 ， 这 个 类 的 实例 基于 source 对 象 创建 文件 读 取 器 。 


返回 结果 是 一 个 streamReader 对 象 ， 最 外 面 的 cast () 图 数 通知 mypy 工具 将 streamReader 
作为 TextIO 的 实例 来 处 理 。codecs .getreager () 创建 的 读 取 器 是 将 由 字 节 组 成 的 文件 解码 
为 格式 正确 的 文本 的 关键 。 其 他 的 类 型 变换 都 是 提供 给 mypy 工具 的 类 型 标示 。 


trip 对 象 是 由 Leg 实例 组 成 的 序列 ， 打 印 结果 如 下 : 


(Leg (start=Point (latitude=37.549016, longitude= 
-76.330295), end=Point (latitude=37.840832, longitude= 
-76.273834)，dqistance=17.7246) ， 

Leg(start=Point (latitude=37.840832, longitude=-76.273834)， 
end=Point (latitude=38.331501, longitude=-76.459503), 
distance=30.7382)， 
























































Leg(start=Point (latitude=38.330166, longitude=-76.458504), 
end=Point (latitude=38.976334, longitude=-76.473503),，, 
distance=38.8019)) 
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需要 说 明 的 是 ， 原 来 的 haversine() 函数 处 理 的 是 简单 的 元 组 ， 这 里 用 它 来 处 
人 理 命名 元 组 ,由 于 输入 参数 的 顺序 没 变 , 所 以 从 元 组 到 命名 元 组 的 变化 不 会 影响 
Python 的 处 理 过 程 。 








大 多 数 情况 下 ， 使 用 NamedTuple 有 助 于 提高 程序 的 可 读 性 ， 并 能 把 前 缀 式 函 数 风格 变 成 
后 级 式 对 象 风格 。 

















7.3 ”使 用 函数 构造 器 创建 命名 元 组 
创建 命名 元 组 实例 有 三 种 方法 ， 具 体 选 择 取决 于 创建 实例 时 有 多 少 附加 信息 可 用 。 
前 面 的 例子 展示 了 三 种 方法 中 的 两 种 , 接 下 来 重点 介绍 设计 时 要 考虑 的 因素 ,包括 以 下 选项 。 


口 根据 位 置 对 参数 赋值 ， 当 需要 对 一 个 或 者 多 个 表达 式 求 值 时 ， 可 用 这 种 方法 。 例 如 下 面 
的 代码 中 将 haversine() 国 数 应 用 于 start 和 end 来 创建 Leg 对 象 :Leg(start，end， 
round (haversine(sStart，endq) ,4) ) 

口 使 用 星 号 参数 ， 按 照 在 元 组 中 的 位 置 给 参数 赋值 。 这 种 方法 适用 于 从 其 他 可 迭代 对 象 或 
者 已 有 元 组 中 获取 参数 值 。 通 过 map () 函数 把 float () 函数 应 用 于 经 纬度 数据 时 ， 用 到 
了 该 方法 : Point (*map (float, pick_lat_lon(*row))) 

口 使 用 显 式 参数 名 称 赋值 ， 前 面 的 例子 没有 用 过 这 种 方法 ， 优 点 是 可 以 使 参数 赋值 关系 更 


加 明确 : Point (longitude=float (row[0]),， latitude=float (row[1])) 
使 用 多 种 方式 创建 命名 元 组 实例 有 助 于 灵活 地 转换 数据 。 可 以 通过 不 同 的 方式 强调 那些 有 助 


于 阅读 和 理解 应 用 代码 的 数据 结构 特征 ， 有 时 需要 突出 作为 下 标的 0 或 者 1， 有 时 则 需要 强调 起 
点 、 终 点 和 距离 的 顺序 。 
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前 面 的 例子 使 用 了 打包 - 拆 包 设计 模式 处 理 不 可 变 元 组 和 命名 元 组 ， 其 核心 思想 是 用 不 可 变 
对 象 包含 其 他 不 可 变 对 象 ， 来 代替 面向 对 象 范式 中 的 可 变 实例 变量 。 


斯 皮尔 曼 等 级 相关 系数 是 一 种 用 于 表征 两 组 变量 相关 度 的 统计 量 。 比 较 两 组 变量 的 等 级 , 由 
于 变量 值 可 能 在 尺度 上 有 差异 ， 所 以 它 不 比较 具体 的 值 ， 而 比较 相对 顺序 。 有 关 该 算法 的 更 多 信 
息 ， 可 参考 维基 百科 。 

计算 斯 皮尔 曼 等 级 相关 系数 时 需要 给 每 个 样本 赋 一 个 等 级 值 ,使 用 enumerate (sorted()) 
可 以 实现 。 对 给 定 的 可 能 存在 相关 性 的 两 组 数据 , 分 别 将 每 组 数据 转换 为 一 系列 等 级 值 , 然后 计 
算 相关 度 。 
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这 里 使 用 “打包 - 拆 包 ”设计 模式 实现 算法 , 首先 用 等 级 值 打包 数据 , 便于 后 续 计算 相关 系数 。 
第 3 章 介绍 了 如 何 解 析 数 据 集 。 从 数据 集中 提取 4 份 样本 的 做 法 如 下 : 


>>> from Chapter 3.ch03_ex5 import ( 
series, head map_filter, row_iter) 
>>> with open("Anscombe.txt") as source: 
data = list(head map_filter(row_ iter(source))) 


得 到 的 数据 集 每 行 包含 4 个 序列 ，series () 函数 从 所 有 行 中 提取 指定 序列 ， 返 回 结果 是 个 
a a 


代表 每 对 数据 的 命名 元 组 如 下 : 


from typing import NamedTuple 
































class Pair(NamedTuple): 
LGat 
人 


下 面 引 入 一 个 变换 函数 ， 将 匿名 元 组 转换 为 命名 元 组 。 


from typing import Callable, List, Tuple, Iterable 
RawPairIiter = Iterable[Tuple[float, float]] 





pairs: Callable[ [RawPairIter], List[Pair]] \ 
= lambda source: list(Pair(*row) for row in source) 


RawPairIter 类 型 代表 series () 图 数 返回 的 中 间 输 出 结果 : 一 个 输出 二 元 组 的 可 和 迭 失 代 序 
列 。pairs 匿名 困 数 接收 一 个 可 迭代 2 返回 一 个 由 Pair 命名 元 组 组 成 的 列表 。 


使 用 pairs () 函数 和 series () 函数 从 源 数据 中 抽取 数据 对 ， 如 下 所 示 : 


>>> series_I = pairs(series (0, data)) 

>>> Series_II = pairs(series(1, data)) 
>>> series_IIIT = pairs(series(2, data)) 
>>> series_IV = pairs(series(3, data)) 


每 个 序列 是 一 个 由 Pair 对 象 组 成 的 列表 ,每 个 Pair 对 象 包含 x 和 y 两 个 属性 , 数据 如 下 
所 示 : 


[Pair (x=10.0, y=8.04), 
Pair (x=8.0, y=6.95), 


























pair (x25.0, y=5.68)] 
为 了 便于 计算 等 级 , 需要 构造 一 个 包含 等 级 值 和 原始 数据 对 的 组 合 对 象 , 该 二 元 组 的 类 型 定 
义 如 下 所 示 : 


from typing import Tuple 
RankedPair = Tuple[int, Pair] 
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Pair 是 前 面 定义 的 命名 元 组 ，RankedPair 是 包含 一 个 整数 和 一 个 Pair 对 象 的 二 元 组 的 
类 型 别名 。 
如 下 所 示 的 生成 器 函数 将 包含 Pair 的 可 迭代 集合 转换 为 RankedPair: 


from typing import Iterable, Iterator 
def rank yl(pairs: Iterable[Pair]) -> Iterator[RankedPair]: 
return enumerate(sorted(pairs, key=lambda p: p.y)) 


对 RankedPair 对 象 应 用 enumerate () 函数 创建 迭代 器 。 按 Pair 对 象 的 y 值 排序 。 将 每 
个 Pair 对 象 和 一 个 等 级 值 包装 成 一 个 二 元 组 。 


更 复杂 的 实现 如 下 : 


Rank2Pair = Tuple[int, RankedPair] 
def rank x( 
ranked_ pairs: Iterable[RankedPair] 
) -> Iterator[Rank2Pair]: 


return enumeratel 
sorted (ranked pairs, key=lambda rank: rank[l1] .x) 
) 


将 RankedPair 对 象 包装 进 Rand2Pair 对 象 中 。 第 二 次 包装 生成 了 一 个 包含 二 元 组 的 二 元 
组 ， 这 个 复杂 的 数据 结构 表明 类 型 别名 能 为 被 处 理 的 数据 提供 有 效 的 类 型 提示 。 











y_rank = list (rank_y (series_I) ) 的 运行 结果 如 下 : 


(10 ‘Palr(xsL9.0 YL2...5)) 
] 


为 了 计算 相关 度 ， 需 要 使 用 rank_x() 函数 和 rank_y () 函数 ,xy_rank = list (rank_x 
(y_rank) ) 的 值 是 由 深度 肯 套 对 象 组 成 的 列表 ， 如 下 所 示 : 


[(0, (0, Pair(x=4.0, y=4.26))), 
(1, (2, Pair(x=5.0, y=5.68))), 











(105: (9 " Ealr(x=14.0v. Y=9%96))) 


这 样 就 可 以 基于 x 和 y 的 等 级 值 ， 而 不 是 原始 Pair 对 象 计算 等 级 序列 的 相关 度 了 。 


要 提取 两 个 等 级 值 ， 需 要 两 个 复杂 表达 式 。 对 于 数据 集中 每 个 标记 了 等 级 值 的 样本 +， 需要 
比较 *[01] 和 tf[1][0]， 这 是 与 前 面包 装 过 程 相对 应 的 拆 包 过 程 。 有 时 也 将 这 类 函数 称 为 选择 器 
函数 ， 因 为 它们 从 复杂 的 数据 结构 中 选择 数据 项 。 


为 了 避免 对 <*[01] 和 tr1]l00] 的 复杂 引用 ， 可 以 创建 如 下 所 示 的 选择 器 函数 : 
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x_rank = lambda ranked: ranked[0] 
y_rank = lambda ranked: ranked[1] [0] 
raw = lambda ranked: ranked[1][1] 














这 样 就 可 以 通过 x_rank_(r) 和 y_rank_(r) 来 计算 相关 度 了 , 引用 表达 式 比 原来 的 版 本 易 读 。 


总 的 处 理 策略 包含 两 部 分 操作 ， 包装 和 拆 包 ，rank_x() 了 浮 数 和 rank_y () 阴 数 包装 Pair 
对 象 ， 用 等 级 值 和 原始 数据 创建 元 组 。 通过 创建 复杂 度 逐 渐 增 加 的 数据 结构 ,避免 了 使 用 有 状态 
的 类 定义 。 




















为 什么 要 创建 深层 航 套 元 组 呢 ? 原 因 很 简单 : 惰性 求 值 。 对 元 组 进行 拆 包 ,生成 新 的 扁平 元 
组 很 花 时 间 , 包装 已 有 元 组 则 简单 多 了 。 使 用 扁平 数据 结构 能 大 幅 降低 后 续 处 理 的 复杂 度 , 下 面 
对 已 有 的 处 理 逻辑 做 如 下 改进 。 









































口 平 铺 数 据 结构 ，rank_x() 函数 和 rank_y () 函数 的 类 型 标示 显示 了 其 复杂 度 ， 一 个 在 
Tuplel[lint, Pair] 上 述 代 ， 另 一 个 在 Tuplelint, RankedPair] 上述 代 。 

口 enumerate () 困 数 不 能 正确 计算 有 多 个 相同 值 序 列 的 等 级 值 。 如 果 样 本 中 有 两 个 值 大 小 
相同 , 相应 的 等 级 值 应 相同 。 值 的 大 小 应 该 是 这 些 相同 值 位 置 的 平均 数 ,例如 序列 [0.8， 
1.2，1.2，2.3，18] 的 等 级 值 是 1，2.5，2.5，4，5， 处 在 第 2 位 和 第 3 位 的 两 个 
相同 值 的 等 级 值 是 它们 位 置 的 平均 值 : 2.5。 


下 面 通过 编写 更 智能 的 等 级 计算 函数 完成 上 述 优化 。 


















































7.4.1” 赋 等 级 值 


下 面 将 等 级 排序 问题 分 为 两 部 分 来 处 理 。 首先 创建 一 个 通用 的 高 阶 函 数 给 Pair 对 象 的 x 或 
者 y 属性 赋 等 级 值 ,接着 用 它 包 装 Pair 对 象 , 将 x 和 y 属性 的 等 级 值 纳入 其 中 , 从 而 避免 深层 
赔 套 结构 。 

为 数据 集中 的 每 个 样本 赋 等 级 值 的 函数 如 下 所 示 : 

from typing import Callable, Tuple, List, TypeVar, cast, Dict 


from typing import Dict, Iterable, Iterator 
from collections import defaultdict 






































D_ = TypeVar("D_") 
K_ = TypeVar("K_") 
def rank( 
data: Iterablel[D_], 
key: Callable[[D_], K_]=lambda obj: cast (K_, obj) 


) -> Iterator[Tuple[lfloat, D_]]: 


def builgd duplicates!( 
duplicates: Dict[k_, List[D_]], 
data_iter: Iterator[D_]， 
key: Callable[[D_], K_] 
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) -> Dict[K_, List[D_]]: 

for item in data_iter: 
duplicates [key (item)|] .append (item) 

return duplicates 


def rank_output ( 

duplicates: Dict[K_, List[D_]], 
key_iter: Iterator[K_], 
base: int=0 

) -> Iterator[Tuplel[lfloat, D_]]: 

for k in key_iter: 
dups = len(duplicates[k]) 
for value in duplicates[k]: 

yield (base + 1 + base + dups) / 2, value 

base += dups 


duplicates = build duplicates!( 
defaultdict (list), iter(data), key) 
return rank_output (duplicates, iter(sorted(duplicates)), 0) 


该 等 级 排序 函数 使 用 两 个 子 函 数 将 值 列 表 转 换 为 包含 序列 值 和 源 数据 的 二 元 组 列表 。 第 一 步 
使 用 builqd_gduplicates() 也 数 创建 字典 auplicates， 字 典 的 键 值 是 由 源 数据 经 key 函数 转 
换 后 的 值 ， 键 值 对 应 的 值 是 由 拥有 相同 键 值 的 源 数据 组 成 的 序列 。 第 二 步调 用 rank_output () 
函数 ,在 auplicates 的 基础 上 生成 二 元 组 序列 。 


为 了 厘清 数据 之 间 的 关系 , 这 里 定义 了 两 个 类 型 变量 。D_ 类 型 变量 代表 源 数 据 的 类 型 ， 例 如 
Leg 类 型 或 者 其 他 复杂 对 象 。K_ 类 型 变量 代表 用 于 排序 的 等 级 值 的 类 型 , 它 可 以 与 源 数据 类 型 不 
同 ， 例 如 从 Leg 命名 元 组 中 取出 的 距离 值 是 实数 类 型 。 从 源 数据 到 等 级 值 的 转换 是 通过 key 参 
数 代 表 的 函数 参数 实现 的 ， 该 参数 的 类 型 标示 是 callable[[D_]，K_]。 


build_duplicates () 函数 使 用 有 状态 的 对 象 构造 键 值 之 间 的 映射 关系 ,具体 实现 是 通过 对 
递归 算法 进行 尾 调用 优化 得 到 的 。 首 先 将 内 部 状态 作为 builq_dquplicates () 函数 的 参数 暴露 
出 来 。 递归 的 基本 场景 是 data_iter 为 空 ，base 为 0。 对 于 算法 的 迭代 实现 版 本 ,这 些 变量 并 
不 是 必需 的 ， 但 使 用 它们 可 以 更 好 地 说 明 递 归 的 工作 方式 。 


与 之 类 似 ，rank_output () 函数 也 可 以 通过 递归 生成 包含 源 数 据 和 等 级 值 的 二 元 组 ， 这 里 
将 其 优化 为 二 重 for 循环 。 为 了 显 式 计 算出 等 级 值 ， 取 左边 界 base + 1 和 右边 界 base + dups 
的 平均 值 ， 如 果 duplicates 的 某 一 项 只 有 一 个 元 素 ， 则 等 级 值 是 (2 * base + 2) / 2， 所 
以 该 公式 的 普 适 性 较 好 。 

duplicates 的 类 型 标示 是 Dict [K_，List [D_] ] ,表示 键 类 型 是 K_, 值 类 型 是 List[D_] ， 
也 就 是 由 源 数据 组 成 的 列表 。 这 个 类 型 在 算法 中 多 次 出 现 , 表明 好 的 类 型 定义 能 很 好 地 说 明 类 型 
间 的 复 用 关系 。 
如 下 所 示 测 试 其 能 否 正常 工作 , 第 一 个 例子 是 对 单个 值 排 序 , 第 二 个 例子 是 对 二 元 组 列表 排 
序 ， 使 用 匿名 函数 从 每 组 中 取 键 值 。 
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>>> list(rank([0.8, 1.27 22225318 
区 CD 008). MN(2s D> 2) ps 2s “ 


] ) 

(0 (0550 BO] 
> datas: (2 O87 (By La2)? (SY LL,2)s ， 

) ) 


>>> list(rank(data, key=lambda i ] 
ECOL O (2 08); 

(3 

(Ze (Ds 

(40 (TY Dy) 

(Sy 0 (CTLs LN] 




















样本 数据 中 包含 了 两 个 相同 值 ， 等 级 值 的 最 终 计算 结果 是 两 个 顺序 (2 和 3 ) 的 中 间 数 2.5， 
这 是 计算 两 个 数据 集 的 斯 皮尔 曼 等 级 相关 系数 的 常用 方法 。 








rank () 函数 重 排 了 和 输入 数据 以 查找 重复 值 。 如 果 要 对 每 一 对 数据 的 xx 和 y 值 求 
等 级 值 ， 就 需要 对 数据 进行 两 次 重 排 。 


7 . 4. 2 用 包装 革 代 蔡 状 态 变化 
可 以 按照 以 下 两 种 策略 包装 数据 。 


口 并 行 : 创建 两 份 数据 副本 ， 分 别 对 每 一 份 求 等 级 值 ， 然 后 合并 两 份 副本 ， 得 到 包含 所 有 
等 级 值 的 最 终结 果 。 这 种 方式 不 够 简便 ， 因 为 需要 合并 顺序 不 同 的 两 个 序列 。 

口 串 行 : 首先 计算 出 一 个 变量 的 等 级 值 ， 将 原始 数据 包 在 其 中 ， 然 后 对 包装 后 的 数据 中 的 
男 一 个 变量 再 求 一 次 等 级 值 。 以 这 种 方式 生成 的 结构 会 比较 复杂 ， 但 通过 对 最 后 结果 做 
平 铺 处 理 可 以 缓解 这 个 问题 。 


下 面 的 函数 创建 了 包含 y 值 等 级 顺序 的 包装 对 象 : 


from typing import NamedTuple 
class Ranked Y(NamedTuple): 
Oa 
raw: Pair 
































def rank yl(pairs: Iterable[lPair]) -> Iterable[Ranked_Y] : 
return ( 
Ranked_Y(rank, data) 
for rank, data in rank(pairs, lambda pair: pair.y) 


) 


这 里 定义 了 一 个 包含 y 等 级 值 以 及 原始 数据 的 命 证 名 元 组 。 rank_ yl( ) 函数 通过 应 用 rank () 
函数 创建 了 这 个 元 组 的 实例 ， 而 rank ( ) 函数 中 使 用 了 一 个 从 Pair 对 象 中 提取 y 属性 的 匿名 函 
数 ， 最 后 得 到 了 二 元 组 实例 。 














因此 当 有 如 下 输入 时 : 
>>> data = (Pair(x=10.0, y=8.04), 


Pair (x=8.0, y=6.95), 
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Pair (x=13.0, y=7.58), 
pai (=5.0 Y=0.68)) 


输出 会 如 下 所 示 : 


>>> list (rank_y (data)) 
[Ranked_Y(r_y=1.0, raw=Pair (x=4.0, y=4.26)), 
Ranked_Y(r y=2.0, raw=Pair (x=7.0, y=4.82)), 
Ranked_Y(r_ y=3.0, raw=Pair(x=5.0, y=5.68 
etc. 

Ranked_Y(r_ y=11.0, raw=Pair (x=12.0, y=10.84))] 


将 原来 的 Pair 对 象 包装 进 了 包含 等 级 值 的 新 Ranked_Y 对 象 中 , 但 这 不 是 我 们 想 要 的 。 在 
此 基础 上 需要 再 次 包装 ， 得 到 包含 x 和 yy 等 级 值 的 对 象 。 
































7.4.3 ”以 多 次 包装 代替 状态 变化 


首先 考虑 创建 一 个 名 为 Rankea_X 的 命名 元 组 子 类 ,包含 r+_x 和 ranked_y 两 个 属性 。 其 
中 ranked_y 是 一 个 Ranked_Y 实例 ，Ranked_Y 包含 两 个 属性 : r_y 和 raw， 虽 然 易 于 构建 ， 
但 难以 处 理 ， 因 为 r_x 和 r_y 不 在 同一 级 结构 中 。 下 面 介 绍 一 个 略 复杂 的 包装 过 程 ， 以 得 到 简 
单 的 结果 数据 结构 。 


我 们 和 希望 输出 数据 如 下 所 示 : 


class Ranked xY (NamedTuple): 
rx float 
ys FLoat 
raw: Pair 


该 命名 元 组 包含 多 个 对 等 的 属性 , 这 种 结构 比 深层 恋 套 结构 易于 处 理 。 在 某 些 应 用 中 ,需要 
多 次 变换 数据 ， 这 里 只 有 两 次 变换 : 对 x 和 y 求 等 级 值 。 整 个 过 程 分 为 两 步 : 首先 像 前 面 那样 
简单 包装 ， 然 后 是 更 通用 的 “ 拆 包 -再 包装 "”。 


基于 y 等 级 排序 进行 x-y 等 级 排序 如 下 所 示 





























def rank xy (pairs: Sequence[Pair]) -> Iterator [Rankedq_XY] : 
return ( 
Ranked_XxY( 
YY Xe yy Try=Pank raw[0], raw=rank _y_raw[l1]) 
for r_x, rank y_raw in 
rank (rank_y (pairs), lambda r: r.raw.x) 


) 
首先 通过 rank_y () 函数 创建 Rank_Y 对 象 ， 然 后 对 这 些 对 象 应 用 rank () 函数 ， 基 于 原始 
数据 中 的 x 属性 求 等 级 值 。 该 函数 返回 一 个 二 元 组 : x 等 级 值 和 Rank_Y 对 象 。 最 后 基于 x 等 级 
值 r_x、y 等 级 值 rank_y_raw[0] 和 原始 对 象 rank_y_raw[1] 创 建 了 Ranked_XY 对 象 。 
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第 二 个 函数 展示 了 为 元 组 添加 数据 的 一 种 更 通用 的 方法 ，Ranked_XY 对 象 的 构建 过 程 演示 
了 如 何 从 原 有 数据 中 拆 包 , 并 再 次 打包 形成 更 复杂 的 结构 , 这 是 向 元 组 中 添加 新 变量 的 一 种 常用 
方法 Le 






































样本 数据 如 下 所 示 : 

>>> data = (Pair(x=10.0, y=8.04), Pair(x=8.0, y=6.95), 
. Pair(x=13.0, y=7.58), Pair(x=9.0, y=8.81), 

EC: 


“Paie (=5.0 Ve=5::68)) 


可 创建 等 级 对 象 如 下 所 示 : 


>>> list (rank_ xy (data)) 
[Rankeqd_ XxY(r_ x=1.0, r_y=1.0, raw=Pair (x=4.0, 
Ranked_ XY(r_ x=2.0, r_y=3.0, raw=Pair (x=5.0, y=5.68)), 
Ranked_ XY(r_ x=3.0, r_y=5.0, raw=Pair (x=6.0, 
etc. 
Ranked_ XY(r_ x=11.0, r_y=10.0, raw=Pair(x=14.0, y=9.96))] 
有 了 x 和 y 的 等 级 值 ， 就 可 以 计算 斯 皮尔 曼 等 级 顺序 相关 度 了 ， 最 终 可 以 根据 原始 数据 算 
出 斯 皮尔 曼 等 级 相关 系数 。 


前 面 的 多 次 求 等 级 值 的 方法 涉及 拆 解 元 组 并 创建 新 的 包含 附加 属性 的 单 层 元 组 , 当 需 要 从 输 
入 数 据 中 计算 多 个 目标 值 时 ， 这 是 一 种 常用 的 方法 。 
7.4.4 ”计算 斯 皮尔 曼 等 级 顺序 相关 度 
斯 皮尔 曼 等 级 顺序 相关 度 用 于 比较 两 个 变量 等 级 的 相关 性 。 它 巧妙 地 避免 了 量 级 的 影响 , 即 
使 变量 关系 是 非 线 性 的 ， 也 能 找到 二 者 之 间 的 关联 ， 计 算 公式 如 下 : 
=1 6Z02: 7) 
人 n(n’ 一 1 


首先 计算 每 对 观测 值 对 应 的 等 级 值 .和 x, 差 的 平方 和 和， 对 应 的 Python 算法 借助 sum() 函数 
和 len () 函数 实现 ， 如 下 所 示 : 


















































def rank_corr(pairs: Sequence[Pair]) -> float: 
ranked = rank_xy (pairs) 
sum d 2 = sum((r.r x -r.r y) xx 2 for r in ranked) 
n = lenl(pairs) 
TEtUrI 1 = 6 BI dd .27 (nT * (N22 = 1}) 


前 面 用 Rank_xY 对 象 表示 数据 对 , 所 以 这 里 计算 r_x 和 r_y 属性 的 差 值 , 然后 取 差 值 的 平 
方 和 。 


相关 系数 的 具体 含义 请 参阅 统计 学 方面 的 资料 。 相 关系 数 为 0 表示 没有 相关 性 , 在 散 点 图 上 
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显示 为 无 规律 的 随机 数据 点 。 值 接近 1 或 者 -1 则 表示 的 相关 性 很 强 ， 散 点 图 上 显示 为 一 条 清晰 
的 直线 或 者 曲线 。 


基于 安 斯 库 姆 四 重奏 数据 序列 的 示例 如 下 : 


>>> data = (Pair(x=10.0, y=8.04), Pair(x=8.0, y=6.95), 
i Pair(x=13..0; Y=7.58);. Pair(X=9:0, Y=8..81).; 
“ale(XSLL .0 Y=s8.33),. Ealr(x=14.0y. 996)3 

. Pair(x=6.0, y=7.24), Pair(x=4.0, y=4.26), 

( 

( 














3 Pair (xs12;0, y=10.84), Pair'(x=7.0, y=4.82), 
si PALE(XSD: 0 “Y=.68)) 
>>> round (pearson corr( data ), 3) 
O08E6 


可 以 看 出 该 数据 集 的 相关 性 很 强 。 


第 4 章 讲 过 如 何 计算 皮尔 逊 相 关系 数 ， 其 中 corr () 函数 的 输入 值 是 两 个 无 关 的 数值 序列 。 
下 面 用 它 来 处 理 Pair 对 象 序列 : 


import Chapter_4.ch04 ex4 7 
def pearson corr(pairs: Sequence[Pair]) -> float: 


xX = tuple(p.x for p in pairs) 
Y"=,tUpLe(p YY for DLn "DALrrey 
return ch04_ex4.corr (xX, Y) 
将 Pair 对 象 拆 开 后 ， 作 为 输入 传 给 corr () 图 数 ， 得 到 了 另外 一 种 相关 系数 : 皮尔 逊 相关 
系数 ,以 此 比较 两 个 变量 的 标准 值 。 对 于 某 些 数据 集 来 说 ,皮尔 逊 相关 系数 和 斯 皮尔 曼 相 关系 数 
差别 不 大 ， 而 对 另外 一 些 数据 集 来 说 ， 二 者 的 差别 会 非常 大 。 


在 EDA 中 ， 同 时 使 用 多 种 统计 工具 是 很 重要 的 。 要 想 知道 具体 原因 ， 分 别 计 算 一 下 安 斯 库 
姆 四 重奏 数据 集 的 斯 皮尔 曼 等 级 相关 系数 和 皮尔 逊 相关 系数 就 清楚 了 。 
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一 些 函 数 式 语言 提供 了 多 种 方式 来 灵活 处 理 静 态 函 数 类 型 定义 ,但 问题 是 许多 函数 的 数据 类 
型 是 完全 抽象 的 。 以 统计 函数 为 例 ， 只 要 保证 做 除法 得 到 的 商 是 numbers .Real 的 子 类 (例如 
Decimal、Fraction 或 者 float 类 型 )， 其 函数 定义 对 整数 和 实数 是 完全 一 致 的 。 这 些 也 数 式 
语言 提供 了 复杂 的 类 型 和 类 型 匹配 机 制 ， 使 得 编译 右 可 以 通过 统一 的 抽象 定义 处 理 多 种 数据 类 
型 。Python 不 存在 这 个 问题 ， 也 不 需要 类 型 匹配 。 


Python 的 实现 方法 与 静态 类 型 的 函数 式 语言 借助 于 ( 可 能 是 ) 复杂 的 语言 特征 截然 相反 。 基 
于 参与 运算 的 数据 类 型 ，Python 动态 确定 运算 符 的 最 终 实现 方式 。 使 用 Python 编写 的 函数 本 就 
是 抽象 的 , 不 与 任何 数据 类 型 绑 定 ,Python 运行 时 根据 对 象 类 型 确定 使 用 何 种 实现 。 关 于 从 运算 
符 到 具体 处 理 方法 名 称 之 间 的 映射 细节 ， 可 参阅 Python 语言 参考 手册 的 3.3.7 节 以 及 类 库 中 
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numbers 模块 的 具体 实现 。 


这 意味 着 编译 器 并 不 能 保证 函数 的 输入 数据 和 输出 数据 的 类 型 是 正确 的 , 通常 使 用 单元 测试 
和 mypy 工具 检测 类 型 


特殊 情况 下 ， 当 确实 需要 根据 数据 类 型 决定 处 理 方法 时 ， 有 如 下 两 种 解决 方案 : 


口 使 用 isinstance () 函数 确定 具体 属于 哪 种 情况 ; 
口 创建 numbers .Number 或 者 NamedTuple 的 子 类 并 实现 符合 具体 情况 的 多 态 方法 。 


有 时 需要 两 种 方法 兼用 来 纳入 需要 转换 的 所 有 数据 类 型 ， 并 通过 cast () 函数 为 mypy 显 式 
指定 数据 类 型 。 


前 面 等 级 排序 的 例子 基于 输入 值 是 简单 数据 对 的 假设 , 虽然 斯 皮尔 曼 等 级 相关 系数 的 函数 定 
义 满足 该 要 求 ， 但 实践 中 经 常 需 要 计算 多 个 变量 间 的 所 有 相关 系数 。 


下 面 抽象 化 等 级 排序 ， 首 先 定义 如 下 命名 元 组 ， 包 含 等 级 值 和 原始 数据 项 。 


from typing import NamedTuple, Tuple, Any 
class Rank_Data (NamedTuple): 

rank_seq: Tuple[float] 

raw: Any 


这 个 类 的 典型 应 用 场景 如 下 所 示 : 


> data = {keyls 1 "Keyv2 2} 
> 1 = Rarik_ Datal((t2Z; 7),.data) 
>>> .rank_sed[0] 

2 

> 

{ey 


原始 数据 的 每 一 行 是 一 个 字典 ,每 个 数据 项 包含 两 个 等 级 值 。 应 用 既 可 以 获取 等 级 值 ， 也 可 
以 获取 原始 数据 本 身 。 


然后 为 等 级 排序 函数 添加 一 些 语法 糖 。 前 面 许多 例子 使 用 了 for 语句 处 理 可 迭代 对 象 和 集 
合 , 但 这 里 不 会 过 多 地 使 用 for 语句 。 在 一 些 函数 中 , 我 们 显 式 使 用 iter () 函数 将 集合 转化 为 
迭代 对 象 ， 这 里 使 用 isinstance () 函数 进行 类 型 检测 ， 如 下 所 示 : 

def some_ function(seqg or_iter: Union[Sequence, Iterator]): 
if isinstance(seq or_iter, Sequence): 
yield from some_ function(iter(seq or_iter), key) 


return 
# Do the real work of the function using the Iterator 


通过 类 型 检查 序列 和 和 迭代 器 对 象 间 的 微小 差别 。 这 里 使 用 iter () 函数 将 序列 对 象 转化 为 迭 
代 器 ， 然 后 递归 调用 自身 来 处 理 数 据 。 
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这 里 使 用 了 Union[Sequence，Iterator] 表 示 等 级 排序 的 数据 结构 ， 源 数据 排序 后 才能 
获得 等 级 值 ， 最 简单 的 方法 是 用 1ist () 函数 将 迭代 器 转化 为 序列 。 虽 然 仍 使 用 isinstance () 
函数 ， 但 不 像 前 面 那样 基于 序列 生成 迭代 器 ， 而 是 将 迭代 器 转化 为 序列 。 

应 尽量 把 等 级 排序 函数 定义 得 抽象 一 些 。 下 面 两 个 表达 式 定 义 了 输入 数据 ; 


Source = Union[Rank_Data，Any] 
Union[Sequence[Source], Iterator[Sourcel]] 


两 类 输入 数据 对 应 四 种 组 合 : 






































D Sequence[Rank_ Datal 


口 Iterator[Rank_Datal 





[ 

口 Sequence[Any 
[ 
[ 


口 Iterator [Any 


下 面 的 rank_data() 函数 分 三 种 情况 处 理 上 面 四 种 组 合 。 


from typing import ( 
Callable, Sequence, Iterator, Union, Iterable., 
TypeVar, cast, Union 








) 
K_ = TypeVar("K_") # Some comparable key type used for ranking. 
Source = Union[Rank_Data，Any] 
def rank_datal 
seq_or_iter: Union[Sequencel[lSource], Iterator[Sourcel]l], 
key: Callable[[Rank Datal]l, K_] = lambda obj: cast(K_, obj) 
) -> Iterable[Rank_ Datal: 


if isinstance(seq or_iter, Iterator): 
# Iterator? Materialize a sequence object 
yield from rank_ data(list (seq or_iter), key) 
return 


data: Sequence[Rank_ Datal 
if isinstance (seq or_iter[0], Rank_Data): 
# Collection of Rank_ Data is what we prefer. 
data = seq or_iter 
else: 
# Convert to Rank_Data and process. 
empty_ranks: Tuplel[lfloat] = cast (Tuple[float], ()) 
data.s ist 
Rank_Data (empty_ranks, raw_data) 
for raw_data in cast (Sequence[Source], seq_or_iter) 











) 


for r, rd in rerank (data, key): 
new_ranks = Cast( 
Tuplel[lfloat], 
rd.rank_seq + cast (Tuple[lfloat], (r,))) 
yield Rank_ Data (new_ranks, rd.raw) 
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前 面 把 四 类 数据 结构 分 为 三 种 情况 ， 下 面 详细 说 明 。 


口 如 果 输 入 是 迭代 器 ( 没有 实现 _getitem __() 方 法 的 对 象 )， 把 它 实 例 化 为 一 个 列表 对 象 ， 
就 都 可 以 处 理 Rank_Data 或 其 他 类 型 的 源 数据 了 。 这 种 情况 包括 Iterable [Rank_Datal] 
和 Iterable[Any] 类 型 对 象 。 

口 如 果 输 入 是 sequence[Any] 类 型 对 象 ， 把 这 个 未 知 对 象 包装 进 一 个 带 有 空 等 级 值 的 

Rank_Data 元 组 中 ,创建 一 个 Sequence [Rank_Data] 对 象 。 

口 最 后 ， 如 果 输 入 是 sequence[Rank_Data] 类 型 对 象 ， 添 加 新 的 等 级 排序 值 到 原 有 的 
Rank_Data 容器 中 。 


第 一 种 情况 递归 调用 rank_dqata() 自身 ， 另 外 两 种 情况 使 用 rerank () 函数 基于 算出 的 等 
级 值 构建 新 的 Rank_Data 对 象 。 结 构 复 杂 的 源 数据 将 包含 多 个 等 级 排序 值 。 


为 了 消除 等 级 元 组 数据 类 型 的 模糊 性 ， 需 要 使 用 复杂 的 cast () 表达 式 。 可 以 用 mypy 工具 
提供 的 reveal_type () 函数 调试 编译 器 的 类 型 推 新 。 


rerank () 函数 与 前 面 定 义 的 rank () 函数 略 有 不 同 ， 它 返回 包括 等 级 值 与 源 数据 的 二 元 组 。 


def rerank( 
rank_data_iter: Iterable[Rank_Datal]， 
key: Callable[[Rank Data], K_] 
) -> Iterator[Tuple[lfloat, Rank_ Datal]l]: 
sorteqd_ iter = iter( 
sorted( 
rank_data_iter, key=lambda obj: key (obj .raw) 































































































) 
) 
# Apply ranker to head, *tail = sortedl(rank_ data_iter) 
head = next (sorted_iter) 
yield from ranker (sorted_ iter, 0, [head], key) 





rerank () 的 实现 思路 是 对 Rank_Data 序列 进行 排序 ， 其 头 部 元 素 head 用 作 ranker () 函 
数 的 种 子 ，ranker () 函数 在 剩余 项 中 查找 与 头 部 元 素 匹 配 ( 等 级 计算 标准 相同 ) 的 其 他 对 象 ， 
从 而 计算 出 一 组 匹配 对 象 的 等 级 值 。 
































合 ， 返 回 结果 是 一 个 由 等 级 值 和 相应 Rank_Data 对 象 组 成 的 二 元 组 序列 。 


def ranker( 

sorted_iter: Iterator[Rank Datal, 
base: float, 
same_rank_seq: List[Rank_ Datal, 
key: Callable[[Rank Data], K_] 

) -> Iterator[Tuple[lfloat, Rank_ Datal]l]: 

a 
Value = next (sorted_ iter) 

except StopIteration: 
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dups = len(same_rank_sed) 
yield from yield sequencel 
(base + 1 + base + dups) / 2, iter(same_ rank_ seq)) 
return 
if key (value.raw) == key (same_ rank_ seql[0] .raw) : 
yield from Franker( 
sorted_iter, base, same_ rank seq + [value], key) 
else: 
dups = lenl(same_ rank_seq) 
yield from yield_ sequencel 
(base + 1 + base + dups) / 2, iterl(same rank_ seq)) 
yield from ranker( 
sorted_iter, base + dups, [value], key) 


首先 从 排序 后 的 Rank_Data 组 成 的 序列 中 取 一 个 对 象 ， 如 果 出 现 stopIteration 异常 ， 
说 明 数 据 源 已 空 ， 没 有 待 处 理 元 素 了 。 基 于 拥有 相同 等 级 值 的 same_rank_seq 返回 最 终结 果 。 


如 果 能 取 到 下 一 个 对 象 , 就 用 key ( ) 函数 计算 键 值 。 如 果 与 same_rank_seq 中 元 素 的 键 值 
相同 ， 把 它 追 加 到 当前 相同 等 级 值 序列 中 。 基 于 sorteq_iter 中 的 剩余 数据 、 当 前 等 级 值 、 包 
含 了 head 的 新 same_rank_seq 以 及 key () 函数 计算 最 终结 果 


如 果 当 前 对 象 的 键 值 与 相同 等 级 值 集合 中 元 素 的 key 值 不 一 致 ， 则 返回 结果 包含 两 部 分 。 
第 一 部 分 来 自 same_rank_seq 中 包含 的 相同 等 级 值 序列 。 第 二 部 分 来 自 排 序 后 集合 中 的 剩余 元 
素 ， 其 基准 值 在 当前 相同 等 级 值 序列 的 基础 上 增加 ， 初 始 化 新 的 相同 等 级 序列 键 值 ，key ( ) 函数 
保持 不 变 。 


rankezr() 国 数 使 用 yiela_seduence () 输 出 结果 ， 如 下 所 示 : 


def yiel1dq_seduence 
rank: float， 
same_rank_iter: Iterator [Rank_Datal] 
) -> Iterator [Tuple[float，Rank_Datal]]: 
head = next(same_rank_iter) 
yield rank, head 
yield from yield sequence(rank, same rank_iter) 


该 实现 强调 了 算法 的 递归 含义 ,实践 中 应 使 用 for 语句 进行 优化 。 




















运用 尾 调 用 优化 技术 将 递归 优化 为 循环 时 ,首先 要 做 好 单元 测试 ,确保 递归 版 本 
通过 单元 测试 后 再 开始 优化 。 


接 下 来 用 前 面 定义 的 函数 为 数据 标记 ( 以 及 再 次 标记 ) 等 级 值 ， 从 由 简单 标量 组 成 的 集合 
开始 0 


S33 SealLares [0.8 adn L223 Ee 
>>> list (rank_datal(scalars)) 

[Rank_Datal(rank_ seq=(1.0,), raw=0.8), 
Rank_Datal(rank_ seq=(2.5,), raw=1.2), 
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Rank_Data(rank_ seq=(2.5,), raw=1.2), 
Rank_Data(rank_seq=(4.0,), raw=2.3), 
Rank_Data(rank_ seq=(5.0,), raw=18) 

源 数据 变 成 了 Rank_Data 对 象 的 raw 属性 。 





处 理 更 复杂 的 数据 时 会 出 现 多 个 等 级 值 。 下 面 是 一 个 二 元 组 序列 : 





>> Palits V2 O08)% (BR L222) yy (9 Ls2) yy (77 2Z73) (11, 18)) 
>>> rank x = listl(rank data(pairs, key=lambda x:x[0])) 
> 

[Rank_Datal(rank_ seq=(1.0,), raw=(2, 0.8)), 
Rank_Data(rank_ seq=(2.0,), raw=(3, 1.2)), 
Rank_Data(rank_ seq=(3.0,), raw=(5, 1.2)), 
Rank_Data(rank_ seq=(4.0,), raw=(7, 2.3)), 
Rank_Data(rank_ seq=(5.0,), raw=(11, 18))] 

>>> rank_ xy = list(rank_ data(rank x, key=lambda x:x[1])) 
了 

[Rank_Datal(rank_ seq=(1.0, 1.0), raw=(2, 0.8)), 
Rank_Data(rank_ seq=(2.0, 2.5), raw=(3, 1.2)), 
Rank_Data(rank_ seq=(3.0, 2.5), raw=(5, 1.2)), 
Rank_Data(rank_ seq=(4.0, 4.0), raw=(7, 2.3)), 
Rank_Data(rank_seq=(5.0, 5.0), raw=(11, 18))] 























首先 定义 了 二 元 组 集合 ， 然 后 将 二 元 组 生成 的 Rank_Data 对 象 序列 标记 等 级 值 赋 给 
rank_x， 接 着 对 Rank_Data 对 象 序列 再 次 标记 等 级 值 ， 并 赋 给 *ank_xv。 


对 rank_corr () 函数 稍 做 修改 ， 就 可 以 基于 Rank_Data 对 象 的 rank_seq 属性 计算 任意 
序列 的 等 级 相关 度 了 ， 具 体 修改 留 给 读者 练习 。 


7.6 ”小结 














本 章 介绍 了 使 用 命名 元 组 处 理 复杂 数据 结构 的 几 种 方法 。 命 名 元 组 的 特点 使 它 非 常 适用 于 函 
数 式 设计 。 它 们 由 创建 函数 生成 ， 可 以 通过 位 置 标记 或 名 称 访问 其 属性 。 


本 章 还 介绍 了 如 何 使 用 不 可 变 的 命名 元 组 代替 有 状态 的 对 象 定 义 , 其 核心 技术 是 将 包 右 在 不 








可 变 的 元 组 中 的 对 象 用 作 附 加 的 属性 值 。 
然后 展示 了 Python 中 人 处理 多 种 数据 类 


























型 的 方法 ， 对 于 大 部 分 数学 运算 ，Python 能 自动 确定 





合适 的 实现 方法 ,但 在 处 理 集合 类 型 数据 时 ， 需 要 略微 区 别 对 待 可 迭代 对 象 和 序列 。 


接 下 来 的 两 章 将 介绍 itertools 模块 ,这 个 库 模 块 提供 了 许多 处 理 可 迭代 对 象 的 高 级 方法 。 
其 中 许多 工具 是 高 阶 函 数 ， 有 助 于 实现 简洁 明了 的 函数 式 设计 。 
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函数 式 编程 强调 使 用 无 状态 对 象 ， 在 Python 中 ， 可 以 使 用 生成 器 表达 式 、 生 成 器 函数 和 可 
迭代 对 象 代替 庞大 的 可 变 对 象 来 达到 这 个 目标 。 本 章 介绍 如 何 使 用 itertools 库 中 的 函数 来 处 
理 可 迭代 集合 ， 这 个 库 的 许多 函数 有 助 于 我 们 使 用 可 迭代 序列 对 象 和 集合 对 象 。 


第 3 章 介 绍 过 迭 代 器 函数 ， 本 章 将 在 此 基础 上 进行 拓展 ， 另 外 还 会 用 到 第 5 章 的 一 些 相关 
函数 。 











有 些 函 数 从 行为 上 看 是 普通 的 惰性 Python 可 迁 代 对 象 ， 但 从 实现 细节 上 看 ， 它 
们 在 执行 过 程 中 创建 了 中 间 对 象 , 消耗 了 大 量 内 存 。 由 于 函数 的 实现 细节 会 随 着 

(外 发 布 版 本 的 变化 而 变化 , 这 里 不 会 提供 针对 某 个 具体 函数 的 建议 , 但 当 程序 出 现 
隆 能 或 者 内 存 问题 时 ， 记 得 仔细 分 析 函 数 的 具体 实现 方法 。 





“使 用 代码 ， 朋 友 。” 是 我 们 一 贯 的 建议 "。 


itertools 模块 中 包含 大 量 迭 代 絮 函数 ， 其 中 部 分 函数 留待 下 一 章 讨论 ， 本 昔 要 介绍 的 办 
代 器 函数 大 体 分 为 以 下 三 大 类 


口 处 理 无 限 欠 代 器 的 函数 : 适用 于 任何 迭代 器 或 者 基于 任何 集合 的 迭代 器 。 例 如 enumerate () 
函数 不 需要 可 迭代 对 象 有 上 界 。 

口 处 理 有 限 迭 代 需 的 函数 : 这 类 函数 或 者 对 数据 源 做 多 次 累积 ， 或 者 生成 数据 源 的 归 约 。 
例如 分 组 函数 需要 可 迭代 对 象 有 上 界 。 

口 tee 迭代 顺 困 数 :将 一 个 迭代 器 克隆 为 多 个 副本 ,每 个 副本 可 以 单独 使 用 .这 克服 了 Python 
迭代 器 只 能 使 用 一 次 的 缺点 。 


虽然 之 前 讲 过 ， 但 这 里 再 次 强调 可 迭代 对 象 的 一 个 重要 局 限 : 只 能 使 用 一 次 。 












































J 原文 “Usethe source, Luke. ”强调 阅读 源 代码 的 重要 性 ， 化 用 

















一 | 


电影 《星球 大 战 》 中 的 经 典 台 词 “Usethe force, Luke.”。 
译 者 注 
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可 和 迭代 对 象 只 能 使 用 一 次 。 


这 点 听 上 去 有 点 奇怪 。 当 数值 用 尽 后 ,和 迭代 器 中 不 再 有 数据 ,如果 继 续 从 其 中 取 
数据 ， 将 引发 StopIteration 异常 。 


除 此 之 外 ， 还 有 一 些 不 太 重 要 的 限制 ， 列 举 如 下 。 


口 不 能 对 可 迭代 对 象 使 用 len () 函数 。 

口 可 以 用 next () 方 法 处 理 可 迭代 对 象 ， 这 一 点 与 容器 不 同 。 使 用 iter () 函数 将 容器 转化 
为 迭代 器 ， 这 样 就 可 以 使 用 next () 方 法 了 。 

口 for 语句 自动 对 容器 对 象 应 用 iter () 函数 ,所 以 在 for 语句 中 容器 和 可 迭代 对 象 似 乎 没 
有 区 别 。 一 个 容器 〈 例如 列表 ) 首先 会 转化 为 包含 所 有 元 素 的 迭代 器 ; 而 一 个 可 迭代 对 
象 ， 例 如 生成 器 ， 由 于 原本 就 符合 欠 代 需 协 议 ， 所 以 会 返回 自身。 


以 上 几 点 是 本 章 的 主要 背景 知识 。itertools 模块 的 核心 思想 ， 就 是 让 用 户 不 必 过 多 关注 
可 和 迭代 对 象 的 实现 细节 , 且 无 须 手动 管理 可 迭代 对 象 的 复杂 代码 ,而 通过 发 挥 可 迭代 对 象 的 优势 
来 编写 出 简洁 明了 的 程序 。 






























































8.1 ”使 用 无 限 迭 代 器 


itertools 模块 提供 的 许多 函数 可 以 增强 和 扩展 处 理 迭 代数 据 源 的 能 力 ， 下 面 着 重 介 绍 以 
下 三 个 函数 。 


口 count () : *ange() 国 数 的 无 限 版 本 。 
D cycle() : 循环 迭代 一 组 值 。 
口 repeat () : 按 指定 次 数 重复 单个 值 。 


本 章 旨 在 介绍 在 生成 器 表达 式 中 使 用 这 些 函 数 ， 以 及 与 生成 器 函数 配合 使 用 的 方法 。 





8.1.1 用 count () 计数 


内 置 的 range () 函数 需要 定义 范围 的 上 界 ， 而 下 限 和 步 长 值 可 选 。count ( ) 函数 与 之 相反 ， 
需要 给 出 起 始 值 和 一 个 可 选 的 步 长 ， 无 须 定 义 上 界 。 

可 以 用 该 函数 定义 类 似 于 enumerate () 这 样 的 函数 。 例如 可 以 通过 zip () 函数 和 count () 
函数 定义 enumertae() 国 数 ， 如 下 所 示 : 


enumerate = lambda x, start=0: zip(count (start), x) 




















将 enumerate() 函数 定义 为 用 zip () 函数 将 count () 函数 与 某 个 可 从 代 对 象 组 合 起 来 。 
因此 下 面 两 个 命令 是 等 同 的 。 
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>>> list(zip(count(), iter('word'))) 
[(0, 'w'), (1, 'o'), (2, 'r'), (3, 'd')] 
>>> list (enumerate(iter('word'))) 

[(0, 'w'), (1, 'o'), (2, 'r'), (3, 'd')] 




















二 者 都 返回 一 系列 二 元 组 ,元 组 的 第 一 个 元 素 是 个 整数 计数 器 , 第 二 个 元 素来 自 可 迭代 对 象 。 
在 上 面 的 例子 中 ， 和 迭代 器 构建 于 由 字符 组 成 的 字符 串 。 





zip() 函数 与 count () 函数 配合 使 用 更 简单 ， 如 下 所 示 
zip(count (1, 3), some_iterator) 
count (b，s) 返 回 序列 {2 ,b+f,b+2f,b+3f,…}。 上 面 的 例子 首先 创建 了 1, 4, 7, 10,… 序 


列 ， 然 后 用 每 个 元 素 标 记 枚 举 器 给 出 的 值 。enumerate () 函数 也 有 不 足 之 处 : 不 能 改变 迭代 的 
步 长 。 使 用 snumerate () 函数 实现 的 版 本 如 下 : 








((1 + 3 * e, x) for e, x in enumerate(some_iterator)) 


8.1.2 ”使 用 实数 参数 计数 


count () 函数 接收 非 整 形 参数 ， 可 以 定义 count (0.5，0.1) 这 样 的 表达 式 来 提供 浮 点 数 。 
如 果 步 长 值 没 有 合适 的 表示 形式 , 会 形成 累积 误差 ,最 好 使 用 (0.5 +x*0.1 forxincount()) 
等 整形 count () 参数 来 避免 累积 误差 出 现 。 











下 面 介绍 如 何 检 验 累 积 误差 。 探 索 实 数 近似 值 用 到 了 函数 式 编程 的 一 些 实用 技巧 。 


实 
下 面 定义 一 个 函数 从 和 欠 代 器 中 不 断 取 值 ， 直 到 满足 给 定 条 件 。until () 函数 定义 如 下 : 


from typing import Callable, Iterator TypeVaL 
T_ = TypeVar("T_") 
def untill( 
terminate: Callable[[T_], bool], 
iterator: Iterator[T_] 
) -> TT: 
i = next (iterator) 
if terminate(i): 
return i 
return until (terminate, iterator) 











首先 从 迭代 需 对 象 中 取 一 个 值 ， 类 型 由 类 型 变量 7_ 定义 。 如 果 这 个 值 通过 了 测试 ， 即 取 到 
了 符合 要 求 的 值 ， 迭 代 结束 ,返回 值 的 类 型 也 是 由 类 型 变量 了 _ 定 义 的 ; 否则 递归 调用 函数 自身 ， 
测试 后 面 的 值 。 

下 面 是 一 个 可 迭代 对 象 实例 和 一 个 测试 函数 。 


Generator = Iterator[Tuplel[lfloat, float]] 
source: Generator = zip(count (0, 0.1), (.1l*c for c in count())) 


0 








Extractor = Callable[ [Tuple[lfloat, float]], floatl] 
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xX» BEAtractors .Lambda x Ys -YL0l 
Vv: Extractor sanbda Ry: R11 


Comparator = Callable[[Tuplel[lfloat, float]], booll] 

neq: Comparator = lambda xy: abs (x(xy)-y(xy)) > 1.0E-12 

生成 器 source 赋值 语句 中 的 类 型 标示 表明 它 在 二 元 组 上 和 迭代。 两 个 抽取 函数 x() 和 Yy() 从 
二 元 组 中 抽取 实数 。 比 较 函 数 neq () 接收 实数 二 元 组 ， 返 回 布尔 值 。 





通过 赋值 语句 创建 匿名 函数 对 象 ， 其 中 的 类 型 标示 协助 mypy 工具 确定 参数 和 返回 值 类 型 


i 








mypy 工具 检查 until () 函数 时 , 将 类 型 变量 T_ 关 联 到 实际 类 型 Tuple[float, float]"。 
过 这 个 关联 ， 能 确认 source 生成 器 和 neq () 函数 可 以 作为 until () 函数 的 参数 。 

















总 








until (neq, source) 在 每 次 迭代 中 比较 实数 的 近似 值 , 直到 二 者 出 现 显著 差 异 。count () 
函数 给 出 其 中 一 个 近似 值 ,1 , 生成 器 函数 给 出 另 一 个 近似 值 .1x 六 ,1 。 理 论 上 这 两 个 值 没 
有 差别 ， 但 基于 抽象 表示 的 具体 近似 值 存在 差异 。 

计算 结果 如 下 所 示 ; 


>>> until(neq, source) 
(92.799999999999，,， 92.80000000000001) 





928 次 迄 代 后 ， 累 积 误差 达到 了 10 一 ， 两 个 结果 都 没有 精确 的 二 进 制 表示 。 





count () 函数 的 示例 接近 了 Python 的 递归 上 限 。 如 果 要 测试 更 大 的 累积 误差 ， 
需要 用 尾 调 用 优化 技术 重 写 until() 函数 。 


计算 能 检测 到 的 最 小 误差 的 方法 如 下 : 


>>> until(lambda x, y: x != y, source) 
(0.6, 0.6000000000000001) 














用 相等 检测 代 蔡 了 误差 范围 检测 。6 次 迭代 后 ，count (0，0.1) 的 累积 误差 达到 了 10“， 用 











二 进 制 表示 二 需要 无 限 长 的 位 数 ， 实际 存储 时 只 能 截取 保存 有 限 位 数字 ， 导 致 误差 产生 并 累积 。 


8.1.3 用 cycle() 循环 迭代 
cycle () 函数 重复 循环 一 组 值 ， 可 用 它 循环 数据 集 标 识 符 对 数据 集 进 行 分 组 。 





还 可 以 用 它 解决 简单 的 fizz-buzz 问题 ， 关 于 该 问题 的 多 种 解法 可 参考 http://rosettacode. 
org/wiki/FizzBuzz， 基 于 它 的 一 些 有 趣 变 体 可 参考 https://projecteuler.net/ problem=1。 








这 是 从 原始 数据 文件 中 记录 数据 行 号 的 常规 做 法 。 一 一 译 者 注 
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可 以 利用 cycle() 函数 生成 一 系列 True 和 False 值 ， 如 下 所 示 : 

















m3 = (i == 0 for i in cycle(range(3))) 

m5 = (i == 0 for i in cycle(range(5))) 

返回 结果 是 无 限 长 的 布尔 值 序列 : [True, False, False, True, False, False, ...] 
或 True, False, False, False, False, True, False, False, False, False, ...]o 








如 果 用 zip () 处 理 有 限 个 数值 序列 和 上 面 两 个 标识 序列 , 可 以 得 到 一 个 三 元 组 序列 , 第 一 部 
分 是 数值 ， 另 外 两 个 是 分 别 代表 是 否 为 3 的 倍数 或 5 的 倍数 的 标识 值 。 注 意 这 里 要 引入 一 个 有 限 
的 可 迭代 对 象 来 生成 目标 数据 的 上 限 。 这 样 的 一 系列 值 及 其 标识 值 如 下 : 


multipliers = zip(range(10), m3, m5) 


这 样 就 得 到 了 一 个 生成 器 对 象 , 可 以 用 1ist (multipliers) 查 看 其 中 包含 的 结果 值 ， 如 下 
所 示 : 


[0 -Truey, True)y ‘(Ly False,. ,FaLSe)y (2, False,, FalLse)y wy (9 -TrUe, FaLSe)] 


这 样 就 可 以 拆 解 三 元 组 了 ， 用 一 个 过 滤器 选 出 倍数 值 ， 铭 弃 其 他 数值 : 


total = sum(i 
for i, *multipliers in multipliers 
if any (multipliers) 


) 

for 从 句 将 每 个 元 组 拆 分 成 两 部 分 : 数值 i 和 标识 值 multipliers， 如 果 标 识 值 含 真 值 ， 
则 保留 该 数值 ， 否 则 将 其 舍弃 。 

该 函数 在 EDA 中 很 有 用 。 

我 们 经 常 要 处 理 大 型 数据 集 的 样本 ,在 最 初 的 清洗 和 建 模 阶段 ,应 使 用 小 数据 集 , 然后 在 更 
大 的 数据 集 上 进行 测试 。 使 用 cycle () 函数 可 以 方便 从 大 型 数据 集中 选取 记录 。 给 定 总 体 数据 
大 小 入 ,与 样本 集 大 小 N;,， 可 算出 循环 体 的 大 小 。 



































假设 用 csv 模块 解析 数据 ， 则 可 以 轻松 生成 子 数据 集 ， 已 知 循 环 体 大 小 cycle_size 和 两 
个 打开 的 文件 source_file 和 target_file， 生 成 子 数 据 集 的 方法 如 下 : 


Chooser = (x == 0 for x in cycle(range (cycle_size))) 
rdr = csv.reader (source_file) 
wtr = csv.writer (target_file) 
wtr.writerows!( 
row for pick, row in zip(chooser, rdr) if pick 


) 


首先 基于 拣选 因子 cycle_size 和 cycle() 函数 生成 拣选 函数 。 比 如 总 体 数据 集 大 小 为 
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10 000 000, 拣选 数据 集 大 小 为 1000, 即 选 取 了 1/10 000 的 数据 。 这 里 我 们 假设 打开 数据 文件 时 ， 
这 些 代码 都 能 在 with 语句 中 。 


接着 用 基于 cycle () 函数 的 生成 器 表达 式 和 取 自 CSV 读 取 需 的 源 数 据 文件 过 滤 数 据 。 由 于 
用 chooser () 函数 和 写 数 据 函 数 都 是 非 严 格 的 ， 这 类 处 理 消耗 内 存 很 少 。 


稍 后 会 介绍 如 何 使 用 compress() 、filter() 和 islice() 函数 实现 相同 的 功能 。 


用 这 个 方法 还 能 将 非 标准 CSV 文件 转换 为 标准 CSV 文件 。 只 要 数据 解析 需 返 回 格式 一 致 的 
元 组 ， 并 通过 写 文件 方法 定义 好 consumer 函数 ， 就 能 用 简单 的 脚本 实现 许多 清洗 和 过 滤 操 作 。 





























8.1.4 用 repeat () 重 复 单个 值 


repeat () 函数 的 功能 似乎 有 点 奇怪 : 重复 返回 单个 值 。 在 需要 单个 值 的 时 候 可 以 用 它 替 代 
cycle()` 函 数 。 


选择 所 有 数据 和 部 分 数据 的 差别 在 于 : 表达 式 (x==0 for x in cycle(range(size) ) ) 
生成 序列 [True，False，False，...] ， 用 于 选取 部 分 数据 ; 表达 式 (x==0 for x in 
repeat (0) ) 生成 序列 [True，True，True，...] ， 用 于 选取 全 部 数据 。 


考虑 如 下 代码 : 


all = repeat (0) 

subset = cycle(range(100)) 

choose = lambda rule: (x == 0 for x in rule) 
# choose(all) or choose(subset) can be used 


只 需 简 单 修改 参数 , 就 可 以 切换 选择 全 部 数据 或 部 分 数据 。 扩 展 该 方法 可 实现 随机 选取 数据 
集 ， 如 下 所 示 : 
def randseqa (limit): 
while True: 


yield random.randrange (limit) 
randomized = randseq(100) 


rangdseqg() 函数 在 指定 范围 内 生成 无 限 长 的 随机 数 序列 ， 丰 富 了 的 cycle() 和 repeat () 
两 种 拣选 模式 。 


不 同 拣选 方法 的 实现 如 下 : 


[vv for v, pick in zip(data, choose(all)) if pick] 
[vv for v, pick in zip(data, choose(subset)) if pick] 
[vv for Vv, pick in zip(data, choose(randomized)) if pick] 


























使 用 chose (all) ，chose (subset) 或 者 chose (randomized) 可 以 方便 地 为 后 续 分 析 提 
供 输 入 数据 。 
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8.2 使 用 有 限 迭 代 器 


itertools 模块 包含 许多 用 于 生成 有 限 序列 的 函数 ， 下 面 介绍 其 中 10 个 函数 ， 以 及 几 个 相 
关 的 内 置 函 数 。 


口 enumerate() : 实际 上 该 也 数 在 _pbuiltins。_ 包 中 , 但 可 以 应 用 于 迭代 器 ， 且 用 法 与 
itertools 模块 中 的 其 他 函数 类 似 。 
口 accumulate(): 返回 作为 输入 的 可 迭代 对 象 的 归 约 序列 , 它 是 高 阶 函 数 ,能 完成 很 多 复 
杂 的 计算 。 

口 chain() : 将 多 个 可 迭代 对 象 按 顺序 组 合 在 一 起 。 

D groupby () : 将 输入 的 可 迭代 对 象 按照 指定 函数 分 割 为 多 个 子 迭 代 对 象 。 

口 zip_longest () : 将 多 个 可 迭代 对 象 中 的 元 素 合 并 在 一 起 ， 内 置 的 zip () 函数 按照 最 短 
输入 值 进行 截断 ，zip_longest () 函数 则 对 较 短 的 可 迭代 对 象 插 和 人 填充 值 。 

口 compress () : 根据 第 二 个 布尔 可 迭代 对 象形 式 的 输入 参数 对 第 一 个 可 迭代 对 象 进行 筛选 。 
D islice(): 序列 切片 函数 的 可 迭代 对 象 版 本 。 

D aropwhile() 和 takewhile(): 使 用 布尔 函数 过 滤 可 和 迭代 对 象 。 与 filter() 和 
filtezrfalse() 这 类 过 滤 函 数 不 同 ， 布 尔 值 会 影响 对 后 续 所 有 值 的 筛选 。 

口 filterfalse(): 对 可 迭代 对 象 应 用 过 滤 函 数 ， 其 返回 结果 与 filter () 函数 的 返回 结 
果 相 反 。 

D starmap(): 将 函数 应 用 于 由 元 组 组 成 的 可 迭代 序列 。 序 列 的 每 个 元 素 以 x*args 的 形式 
作为 函数 的 参数 ，map () 函数 通过 提供 多 个 并 列 的 可 迭代 参数 可 以 实现 相同 的 功能 。 


之 前 根据 对 可 迭代 对 象 进行 的 重组 、 过 滤 和 映射 操作 ， 大 致 将 这 些 函 数 分 成 了 三 类 。 
































8.2.1 用 eanumerate() 添 加 序号 
第 7 章 使 用 snumerate () 函数 将 等 级 值 赋 给 排序 后 的 数据 。 可 以 将 一 个 值 与 它 在 原始 序列 
中 的 位 置 序号 组 对 ， 如 下 所 示 : 

pairs = tuplel(enumerate(Sorted(zaw_ values) ) ) 

将 raw_values 中 的 数据 排序 ， 生 成 一 个 升序 排列 的 二 元 组 序列 ， 然 后 将 它 实 例 化 ， 以 备 后 
续 计算 使 用 。 表 达 式 执行 结果 如 下 所 示 : 

>>> raw values = [1.2, .8, 1.2, 2.3, 11, 18] 


>>> tuple(enumerate( sorted(raw values))) 
((0, 0.8), (1, 1.2), (2, 1.2), (3, 2.3), (4, 11), (5, 18)) 


第 7 章 实现 的 男 一 个 版 本 的 枚 举 函数 rank () 处 理 数据 的 方式 更 符合 统计 计算 的 要 求 。 
上 面 这 种 方法 是 解析 原始 数据 文件 来 记录 数据 行 号 的 常见 做 法 。 很 多 时 候 我 们 需要 创建 某 种 
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形式 的 row_iter () 函数 从 原始 数据 文件 中 提取 字符 串 , 例如 遍历 XML 文件 的 标签 或 CSV 文件 
列 中 的 字符 串 ， 有 时 甚至 需要 通过 Beautiful Soap 库 从 HTML 文件 中 解析 数据 。 


第 4 章 通过 解析 XML 文件 生成 简单 的 位 置 元 组 序列 ， 然 后 生成 了 包含 起 点 、 
路 径 段 ， 但 没有 给 路 径 段 编 号 ， 因 此 当 把 路 径 段 排序 后 ， 就 无 法 获得 路 径 段 的 原始 顺序 信息 了 


第 7 章 拓展 了 基本 解析 器 , 创建 了 代表 旅行 路 途中 每 个 路 径 段 的 命名 元 组 , 这 个 增强 版 解析 
器 的 输出 如 下 所 示 : 


(Leg (start=Point (latitude=37.54901619777347, longitude= 
-76.33029518659048),， end=Point (latitude=37.840832, longitude= 
-76.273834),， distance=17.7246)， 

Leg(start=Point (latitude=37.840832, longitude=-76.273834)， 
end=Point (latitude=38.331501, longitude=-76.459503), 
Qistance=30.7382) ， 

Leg (start=Point (latitude=38.331501, longitude=-76.459503), 
end=Point (latitude=38.845501, longitude=-76.537331), 
Qistance=31.0756) ， 
































“J 


Leg(start=Point (latitude=38.330166, longitude=-76.458504), 
end=Point (latitude=38.976334, longitude=-76.473503),，, 
distance=38.8019)) 








其 中 第 一 个 Leg 对 象 表 示 Chesapeake Bay 两 地 间 的 短途 旅行 。 


下 面 创 建 一 个 能 构造 出 更 复杂 元 组 的 函数 , 将 序号 信息 也 加 入 元 组 中 。 首先 定义 一 个 更 复杂 
的 Leg 类 : 





from typing import NamedTuple 

class Point (NamedTuple): 
latitude: float 
longitude: float 


class Leg (NamedTuple): 
start: Point 
end: Point 
distance: float 


基本 与 第 7 章 中 的 Leg 定义 相同 ， 在 保持 原 有 属性 的 基础 上 增加 了 序号 属性 。 下 面 定义 函 
数 拆 解 数据 对 并 生成 Leg 实例 。 


from typing import Iterator 








到 [ 











def ordereq_leg_iter( 
pair_iter: Iterator[Tuple[Point, Point]] 
) -> Iterator[Leg]: 
for order, pair in enumerate (pair_iter): 
start, end = pair 
yield Legl( 
order, 
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start, 

engd, 

round (haversine(start, end), 4) 
) 


使 用 该 函数 枚 举 包含 起 点 和 终点 的 各 对 数据 。 拆 解 每 个 数据 对 ， 重 新 组 合 序 号 、 起 点 、 终 点 
以 及 haversine(start，end) 参 数 ， 形 成 新 的 Leg 实例 ， 该 生成 器 函数 的 输入 值 是 由 数据 对 
组 成 的 可 迭代 序列 。 


根据 前 面 的 说 明 ， 该 函数 的 用 法 如 下 所 示 : 


filename = "file:./Winter%202012-2013.kml" 

with urllib.request.urlopen(filename) as Source : 
path_iter = float_lat_lonl(row_ iter_ kml (source)) 
pair_iter = legs (path_ iter) 
trip_iter = ordered leg_ iter!( pair_ iter ) 

trip = list(trip_iter) 


首先 将 原始 数据 解析 为 路 径 点 ， 然 后 基于 Leg 对 象 生成 旅行 数据 。 这 里 用 enumerate () 天 
数 确保 为 每 个 元 素 分 配 一 个 从 0 开始 依次 递增 且 不 会 重复 的 序号 。 可 以 通过 设置 第 二 个 参数 来 设 
置 序号 的 起 始 值 。 






































8.2.2 用 accumulate() 计 算 汇 总 值 


accumulate() 函数 基于 给 定 的 函数 返回 一 个 可 迭代 对 象 ， 将 一 系列 归 约 值 汇总 在 一 起 ， 遍 
历 迭 代 器 得 出 当前 汇总 值 。 默 认 的 函数 是 operator .addq() 。 可 以 使 用 乘积 函数 代替 默认 的 求 
和 函数 来 改变 accumulate () 的 行为 。Python 文档 中 有 一 个 很 巧妙 的 实例 ， 使 用 max ( ) 函数 得 
到 当前 序列 中 的 最 大 值 。 


可 使 用 当前 汇总 值 计 算数 据 四 等 分 值 ， 计 算 每 个 样本 值 的 当前 汇总 值 ， 并 用 公式 int (4 * 
value / total) 把 它们 四 等 分 。 


8.2.1 节 讲 过 用 一 系列 经 纬度 坐标 描述 旅途 的 一 系列 路 径 段 。 基 于 距离 把 路 径 点 四 等 分 ， 可 
以 找到 旅行 路 线 的 中 点 。 


旅行 数据 格式 如 下 : 


(Leg (start=Point (latitude=37.54901619777347, longitude=-76.33029518659048)， 
end=Point (latitude=37.840832, longitude=-76.273834),，, distance=17.7246)， 
Leg(start=Point (latitude=37.840832, longitude=-76.273834)， 

end=Point (latitude=38.331501, longitude=-76.459503), distance=30.7382)， 











Leg (start=Point (latitude=38.330166, longitude=-76.458504), 
end=Point (latitude=38.976334, longitude=-76.473503), distance=38.8019)) 


每 个 路 径 段 对 象 包含 起 点 、 终 点 和 距离 3 个 元 素 ， 四 等 分 算法 如 下 所 示 : 
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distances = (leg.distance for leg in trip) 

distance accum = tuple(accumulate(distances)) 

total = distance accum[-1] + 1.0 

quartiles = tuple(int(4 * Q / total) for Q in distance_accum) 


从 路 径 段 中 提取 距离 数据 , 计算 每 段 的 累积 距离 ,该 序列 的 最 后 一 项 便 是 总 距离 ,在 总 距离 
上 加 1.0 确 保 4 * a / total 返回 3.9983， 然 后 截断 取 到 3。 如果 不 加 1.0， 最 后 一 项 的 值 会 为 
4， 从 而 产生 一 个 不 存在 的 “第 五 等 分 ”。 对 某 些 数据 ( 数值 非常 大 ) 来 说 ,可 能 需要 加 上 一 个 更 
大 的 数值 。 

quartiles 的 计算 结果 如 下 所 示 : 
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可 以 使 用 zip () 函数 合并 等 分 序列 值 与 原始 数据 点 ， 还 可 以 使 用 类 似 于 grouppy () 的 函数 
为 每 个 等 分 创建 路 径 段 集合 。 





8.2.3 用 chain() 组 合 多 个 迭代 器 


可 以 用 chain () 函数 将 多 个 迭代 器 组 合 为 单个 欠 代 器 ， 比 如 将 被 groupby () 函数 分 开 的 数 
据 重新 组 合 起 来 。 对 于 简单 集合 ， 用 这 个 方法 可 以 一 次 处 理 多 个 集合 。 


如 果 需 要 在 一 个 简单 迭代 序列 中 处 理 多 个 文件 中 的 数据 ， 可 以 使 用 chain () 函数 结合 
context1lib.ExitSstack() 方 法 来 实现 ， 具 体 做 法 如 下 : 


from contextlib import ExitStack 
import csv 
def row_iter csv_tab(*filenames: str) -> Iterator[List[str]]: 
with ExitStack() as stack: 
files = [ 
stack.enter_context (cast (TextIO，open (name, 'r')) 
for name in filenames 
] # type: List[TextIO] 
readers = map( 
lambda f: csv.reader(f, delimiter='\t'), 
files) 
yield from chain(*readers) 


首先 创建 了 一 个 包含 多 个 打开 的 上 下 文 的 Exitstack 对 象 。 当 with 语句 执行 完毕 后 ， 
ExitStack 对 象 中 所 有 打开 的 对 象 都 会 合理 地 关闭 ,所 以 在 Exitstack 对 象 中 创建 了 多 个 打开 
的 文件 对 象 。 

基于 files 变量 中 的 多 个 文件 对 象 , 我 们 创建 了 一 系列 CSV readers 对 象 , 保存 在 readers 
变量 中 。 所 有 文件 都 是 以 Tab 分 隔 的 ， 因 此 便于 用 一 个 简单 的 函数 处 理 所 有 文件 。 
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也 可 以 用 如 下 方式 打开 一 系列 文件 : 


readers = [csv.reader(f, delimiter='\t') for f in files] 
最 后 , 通过 chain (*readers) 将 多 读 取 器 合并 成 单个 迭代 器 , 包含 所 有 文件 的 行 序列 数据 。 


注意 ,这 里 不 能 用 return 返回 chain (*readers)， 如 果 使 用 return， 子 数 将 退出 with 
语句 ， 关 闭 所 有 文件 ， 所 以 这 里 必须 用 yiela 返回 某 个 文件 的 所 有 行 ， 同 时 不 退出 with 语句 。 








8.2.4 用 groupby() 切 分 迭代 器 


通过 对 每 个 元 素 应 用 key 函数 进行 求 值 ，groupby () 函数 将 一 个 迭代 器 切 分 为 多 个 小 迭代 
器 。 如 果 后 一 个 元 素 的 key 值 等 于 前 一 个 元 素 的 key 值 ， 会 将 这 两 个 元 素 放 在 同一 个 分 组 中 ; 
如 果 与 前 一 个 元 素 的 key 值 不 同 ， 则 当前 分 组 结束 ， 将 当前 元 素 放 到 新 的 分 组 中 。 








groupby () 函数 的 输出 是 一 系列 二 元 组 ， 每 个 元 组 包括 一 个 key 值 和 包含 该 组 元 素 的 迭代 
器 ,该 迁 代 器 的 元 素 可 以 通过 转换 保存 为 元 组 ,也 可 以 归 约 为 汇总 值 。 这 种 情况 下 将 不 会 保留 迭 
代 需 中 的 值 。 


8.2.2 节 介 绍 了 如 何 计算 输入 序列 的 四 等 分 值 。 
基于 旅行 原始 数据 和 算出 的 四 等 分 值 ， 可 如 下 所 示 对 数据 进行 分 组 : 


group_iter = grouppby ( 
Zip(dquartile，trip)， 
key=lambda q_raw: q_raw[0]) 

for group_key, group_iter in group_iter: 
print (group_key, tuple(group_iter)) 


首先 用 zip() 函数 将 四 等 分 值 和 原始 数据 组 合 在 一 起 ， 返 回 包含 二 元 组 的 迭代 带 ， 然 后 用 
groupby () 函数 基于 给 定 的 匿名 函数 按照 四 等 分 值 对 数据 进行 分 组 ， 最 后 用 for 循环 检查 
groupby () 函数 的 返回 结果 。 整 个 过 程 展示 了 获得 键 值 组 以 及 包含 组 成 员 的 迭代 需 的 方法 。 





grouppy () 函数 的 输入 中 的 key 值 必须 是 排序 好 的 ， 以 确保 分 在 一 组 中 的 元 素 是 相 邻 的 。 
请 注意 ， 也 可 以 使 用 aefaultaict (1ist) 方 法 创建 分 组 ， 实 现 方 法 如 下 : 


from collections import defaultdict 
from typing import Iterable, Callable, Tuple, List, Dict 


D_ = TypeVar("D_") 
Fk- = TyBpeVar(C Re ") 
def groupby_2( 
iterable: Iterable[D_]， 
key: Callable[[D_], K_] 
) -> Iterator[Tuplel[Kk_, Iterator[D_]]]: 
groups: Dict[K_, List[D_]] = defaultdict (list) 
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for item in iterable: 
groups[key (Item) ] .append (item) 
for g in groups: 
yield g, iter(groups[g]) 
首先 创建 了 一 个 defaultqdict 类 ,并 为 每 个 键 值 关联 一 个 1ist 对 象 , 类 型 标示 指出 , key () 
函数 将 任意 数据 类 型 转化 为 键 值 类 型 x_， 与 字典 中 的 键 值 类 型 K_ 是 一 致 的 。 
每 个 数据 项 通过 key ( ) 函数 生成 键 值 , 数据 项 本 身 被 追加 到 该 键 值 对 应 的 aefaultdict 类 
列表 中 。 
完成 对 所 有 数据 项 的 分 组 后 ， 就 可 以 按照 每 个 共同 的 key 以 迭代 方式 返回 每 个 分 组 了 了 ， 这 


与 groupby () 函数 的 行为 类 似 。 由 于 作为 输入 的 迭代 器 的 排序 结果 不 一 定 一 致 ， 分 组 结果 可 能 
包含 相同 的 元 素 , 但 顺序 可 能 不 同 。 



























































类 型 标示 中 ， 源 数据 的 类 型 是 D_， 返回 结果 是 一 个 包含 D_ 型 迭代 器 的 迭代 器 ， 表 明 函 数 没 
有 执行 映射 操作 ， 输 入 数据 类 型 与 范围 对 象 的 类 型 完全 一 致 。 





8.2.5 用 zip longest() 和 zip() 合 并 和 迭代 器 


第 4 章 用 到 了 zip () 函数 。zip_longest () 函数 与 它 的 区 别 在 于 ，zip () 返 回 结果 的 长 度 是 
输入 参数 中 最 短 序列 的 长 度 ， 而 zip_longest () 为 较 短 的 序列 填充 值 ， 直 到 遍历 完 最 长 的 序列 。 






































可 以 通过 指定 zip_longest () 函数 的 fillvalue 参数 代替 默认 的 填充 值 None。 


EDA 的 大 多 数 应 用 场景 都 不 需要 填充 默认 值 , 虽然 Python 标准 库 文档 提供 了 zip_longest () 
函数 的 几 个 用 例 ， 但 除 此 之 外 ， 本 书 关注 的 数据 分 析 领 域内 难 寻 其 适合 的 使 用 场景 。 











8.2.6 用 compress () 过 滤 





内 置 的 filter () 函数 使 用 谓词 来 确定 对 某 个 数据 项 的 取舍 。 除 了 使 用 函数 进行 计算 ,也 可 
以 使 用 第 二 个 可 迭代 对 象 确定 对 元 素 的 取舍。 


filter () 限 数 定 义 如 下 : 


def filter(function, iterable): 
i1, i2 = tee(iterable, 2) 
return compress(il1, map (function, i2)) 


首先 用 tee () 函数 克隆 出 可 迭代 对 象 的 两 个 副本 〈 稍 后 会 详细 介绍 该 函数 )，map () 函数 将 
谓词 函数 function () 映射 至 可 迭代 对 象 的 每 个 值 ， 形 成 由 True 和 False 组 成 的 布尔 值 序列 ， 
留 其 中 与 True 关联 的 值 , 实 现 对 源 数据 的 过 滤 。 这 样 就 基于 compress () 函数 实现 了 filter () 
函数 的 效果 。 
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8.1.3 节 使 用 了 一 个 简单 的 生成 器 表达 式 拣 选 数 据 ， 其 关键 部 分 如 下 : 


choose = lambda rule: (x == 0 for x in rule) 
keep = [Vv for Vv, pick in zip(data, choose(all)) if pick] 


规则 的 每 个 值 都 是 一 个 能 生成 布尔 值 序列 的 函数 ,选择 所 有 值 的 规则 对 应 全 为 True 的 序列 ， 
选择 固定 子 数据 集 则 需要 在 True 值 和 c-l1 个 False 值 间 循环 。 




















如 果 用 compress (some_source, choose(rule) ) 代 替 上 面 的 列表 解析 ， 处 理 过 程 可 简 
化 为 : 

compress (data, choose(all)) 

compress (data, choose(subset)) 

compress (data, choose (randomized)) 


这 些 示 例 使 用 了 前 面 定 义 的 拣选 规则 : a 119、subset 和 randomized,， 其 中 subset 和 


randomized 需要 定义 合适 的 系数 从 源 数据 中 取出 二 和 choose 表达 式 基于 其 中 一 条 拣选 规则 














定义 一 个 布尔 值 可 迭代 对 象 。 通 过 将 该 行 选择 可 迭代 序列 应 用 于 源 数据 来 选择 行 。 


以 上 实现 都 是 非 严 格 的 ， 只 在 需要 时 才 从 数据 源 中 读 取 行 数据 ， 从 而 高 效 处 理 海量 数据 。 另 
外 ,简洁 的 Python 代码 让 我 们 无 须 编写 复杂 的 配置 文件 和 解析 器 ， 便 可 以 灵活 选择 拣选 规则 ， 
用 一 人 小段 代 码 就 可 以 完成 大 型 数据 取样 应 用 的 配置 。 









































8.2.7 用 :jislice() 选 取 子 集 


A 


第 4 童 使 用 了 切片 符号 从 集合 中 选取 子 集 ， 当 时 是 将 一 个 列表 对 象 中 的 元 素 组 对 。 例如 对 于 
下 面 这 个 简单 的 列表 : 








下 下 [RR M3 0151 UA RL B13. PLE ee 
I OO A A A 
"S97, OL WOT TL? 


可 以 通过 列表 切片 创建 数据 对 : 


> Tist (zip(tfLat [OSS2], :flat [lss2])) 
[人 


丝 助 islice () 函数 则 无 须 实 例 化 列表 对 象 就 能 实现 相同 的 功能 ,处理 任 意 大 小 的 可 迭代 对 
象 ， 如 下 所 示 : 


flat iter 1 
Fat Tt 


iter (flat) 
iter (flat) 














@ 在 8.1.4 节 定义 的 , 不 是 内 置 函 数 a11。 一 一 译 者 注 
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Zip( 
islice(flat_iter_1, 0, None, 2), 
islice(flat_iter 2, 1, None, 2) 
) 


这 里 基于 一 维 数据 点 列表 创建 了 两 个 独立 的 迭代 融 , 它们 可 能 是 遍历 打开 的 文件 或 者 数据 库 
结果 集 的 两 个 迭代 器 。 两 个 迭代 器 必须 彼此 独立 ， 以 保证 一 个 islice() 函数 的 变动 不 会 影响 另 
一 个 islice() 限 数 。 

islice() 函 数 的 两 组 输入 参数 与 ftlat[0::2] 和 flat[1::2] 表 达 式 类 似 。 由 于 没有 切片 
符号 式 的 简写 形式 ， 必 须 指 明 起 始 参数 和 结束 参数 ， 步 长 值 可 以 省 略 ， 而 取 默 认 值 1。 上 面 的 代 
码 返回 由 二 元 组 组 成 的 数据 序列 ; 


[(2，3)，(5，7)，(11，13)， (17, 19), (23, 29), 











(72883;. TIO0LY s :( LION:;. 27 LQ): | 


由 于 islice() 函数 返回 迭代 器 ,所 以 可 用 于 处 理 巨大 的 数据 集 ， 例 如 从 一 个 大 型 数据 集中 
提取 一 个 子 集 。 除 了 使 用 filter () 函数 和 co press () 函数 ， 还 可 以 用 islice(source，0， 


None，c) 从 大 型 数据 集中 提取 二 个 数据 项 。 























8.2.8 用 dropwhile() 和 takewhile() 过 滤 状 态 


dropwhile() 和 takewhile() 是 有 状态 的 过 滤 函 数 ， 从 一 种 模式 开始 ， 当 满足 给 定 的 谓词 
函数 时 切换 到 为 一 模式 。dropwhile () 函数 开始 采用 拒绝 模式 ， 当 谓词 函数 变 为 False 时 切换 
为 通过 模式 。takewhile() 则 从 通过 模式 开始 ， 当 谓词 函数 变 为 False 时 切换 到 拒绝 模式 。 二 
者 都 是 过 滤器 ， 所 以 会 处 理 整个 可 迭代 对 象 。 


可 以 利用 这 些 函数 过 滤 掉 输入 文件 的 头 部 和 尾部 。 首 先 用 aropwhile () 过 滤 掉 文件 头 部 的 
文本 行 ， 返 回 剩余 的 数据 ， 然 后 用 takewhile () 保 留 数 据 部 分 ， 去 掉 文 件 尾部 的 文本 行 。 回 到 
第 3 章 中 的 GPL 文件 格式 ,文件 头 部 如 下 所 示 : 


GIMP Palette 
Name: Crayola 
Columns: 16 

# 


其 后 的 文本 行 如 下 所 示 : 

255 73 108 Radical Red 

基于 dropwhile() 孙 数 ， 可 以 方便 地 定位 到 文件 头 部 的 最 后 一 行 ， 即 # 这 一 行 ， 如 下 所 示 : 
with open("crayola.gpl") as source: 


rdr = csv.reader (source, delimiter='\t') 
rows = dropwhile(lambda row: row[0] != '#', rdr) 
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之 前 创建 了 CSVreader 基于 Tab 字符 解析 文本 行 , 可 以 方便 地 将 名 称 和 颜色 三 元 组 分 开 , 之 
后 进一步 解析 三 元 组 ， 就 可 得 到 # 行 之 后 处 理 文件 剩余 内 容 的 迭代 器 了 。 

可 以 使 用 islice () 国 数 去 掉 可 迭代 对 象 的 第 一 项 ， 然 后 解析 颜色 的 细节 ， 如 下 所 示 : 

Color_rows = islice(rows, 1, None) 


COLOrS = 
(color.split(), name) for color, name in color_rows 





) 


print (list (colors)) 


表达 式 islice (rows，1，None) 与 rows[1:] 这 样 的 切片 表达 式 类 似 ， 会 丢弃 第 一 项 。 一 
且 移 除 头 部 的 文本 行 ， 就 可 以 解析 颜色 元 组 并 返回 更 有 用 的 颜色 对 象 了 。 


就 该 文件 而 言 ， 还 可 以 通过 CSV reader 解析 出 的 列 数 实现 文本 过 滤 ， 例 如 使 用 aropwhile 
(lambda row: len(row) == 1，rqr) 方 法 也 可 以 过 滤 掉 文件 头 部 ， 但 这 种 方法 并 不 普 适 ， 
通常 通过 定位 头 部 最 后 一 行 比 通过 一 些 文本 特征 区 别 文件 头 和 数据 更 容易 。 本 例 中 文件 头 部 是 通 
过 列 数 识 别 出 来 的 ， 属 于 个 例 。 























8.2.9 基于 filterfalse() 和 filter() 的 两 种 过 滤 方 法 


A 


第 5 章 用 到 了 filter() 隐 数 , 可 以 基于 它 定义 itertools 模块 中 的 filterfalse() 函数 ， 
如 下 所 示 : 


filterfalse = (lambda pred, iterable: 
filter(lambda x: not pred(x), iterable) 








) 





基于 filter() 函数 定义 意味 着 谓词 函数 可 以 是 None。 函 数 filter (None, iterable) 
返回 可 述 代 对 象 中 的 所 有 真 值 ， 哨 数 filterfalse (None，iterapble) 则 返回 所 有 非 真 值 。 


>>> filter(None, [0, False, 1, 2]) 
>>> list(_ ) 
[1, 2] 








>>> filterfalse(None, [0, False, 1, 2]) 
<itertools.filterfalse object at 0x101b43a50> 
>>> list(_ ) 

[0, False] 











使 用 filterfalse() 函数 意 在 提高 代码 复 用 性 。 使 用 这 个 简洁 的 函数 ， 可 以 方便 地 将 输入 
数据 分 为 “通过 ”和 “人 金 弃 ”两 组 ， 而 无 须 使 用 逻辑 非 这 种 繁复 的 表达 方式 。 


该 思想 体现 如 下 : 
iter_1, iter_ 2 = iter(some_source), iter(some_source) 


goodq = filter(test, iter_1) 
bad = filterfalse(test, iter_2) 
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显然 ， 这 会 包含 输入 数据 中 所 有 的 值 。test () 函数 无 须 变动 ， 从 而 避免 了 误 用 括号 造成 难 
以 察觉 的 逻辑 错误 。 


8.2.10 将 starmap () 和 map() 应 用 于 数据 




















Python 内 置 的 map () 函数 是 高 阶 函 数 ， 能 对 可 从 代 对 象 中 的 每 个 元 素 进行 映射 。 简 易 版 的 
map () 因数 如 下 所 示 


map = (lambda function, arg_iter: 


(function(a) for a in arg_iter) 
) 


若 arg_iter 为 可 迭代 对 象 ， 以 上 定义 完全 正确 ,但 实际 的 map () 函数 比 这 里 的 实现 更 复 
杂 ， 能 处 理 多 个 可 迭代 对 象 。 


itertools 模块 的 starmap () 图 数 实际 上 是 map () 图 数 的 *a 版 本 ， 如 下 定义 : 
starmap = (lambda function, arg_iter: 


(function(*a) for a in arg_iter) 


) 





相 比 于 map () 函数 , 该 实现 方法 在 语义 上 有 微小 的 变化 , 使 之 更 适 于 处 理 颈 套 元 组 式 的 数据 
结构 。 





map () 函数 也 可 以 接收 多 个 可 迭代 对 象 作 为 输入 参数 , 这 些 可 迭代 对 象 被 zip 在 一 起 , 行为 
类 似 于 startmap () 。 由 源 可 迭代 对 象 组 成 的 各 个 元 素 构成 了 给 定 函 数 的 输入 参数 。 
可 以 通过 下 面 两 种 表达 式 定义 map (function, iterl, iter2， 


mapl = (lambda function, *iters: 
(function(*args) for args in zip(*iters)) 























.,， itern): 


) 


map2 = (lambda function, *iters: 
(starmap (function, zip(*iters))) 


) 





不 同和 迭代 器 中 的 值 通过 zip (*iters) 组 成 参数 元 组 ， 然 后 通过 *args 结构 体 展 开 为 给 定 函 
数 的 参数 列表 ， 所 以 可 以 基于 更 抽象 的 starmap () 函数 构建 出 map () 函数 。 

















理解 了 上 面 的 计算 过 程 , 就 可 以 基于 startmap () 图 数 重新 定义 旅行 数据 的 计算 过 程 了 。 在 
创建 Leg 对 象 之 前 ， 首 先 创建 位 置 点 对 ， 每 个 数据 对 如 下 所 示 : 


((Point (latitude=37.54901619777347, longitude=-76.33029518659048)， 
Point (latitude=37.840832, longitude=-76.273834))， 








(Point (latitude=38.330166, longitude=-76.458504), 
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Point (latitude=38.976334, longitude=-76.473503)) 
) 


接着 通过 starmap () 函数 组 合生 成 Leg 对 象 ， 如 下 所 示 : 


from Chapter_ 7.ch07_ex1 import float_lat_lon, Leg, Point 
from Chapter_6.ch06_ex3 import row_iter_ kml 

from Chapter_4.ch04 exl import legs, haversine 

from typing import List, Callable 


make_leg = (lambda start, end: 
Leg(start, end, haversine(start,end)) 

) # type: Callable[[Point, Point], Leg] 

with urllib.request.urlopen(url) as source: 
path_iter = float_lat_lon(row_iter kml (source)) 
pair_iter = legs (path iter) 
trip = list(starmap (make_leg, pair_iter)) 

















make_leg () 函数 的 输入 是 一 对 Point 对 象 ， 返 回 值 是 包含 起 点 、 终 点 和 距离 的 Leg 对 象 。 
第 4 章 中 定义 的 legs () 函数 生成 了 包含 一 段 路 径 起 点 和 终点 的 Point 对 象 二 元 组 ,用 作 make_leg () 
的 输入 ， 并 最 终生 成 Leg 对 象 。 








使 用 starmap (function，some_list) 方 法 避免 了 写 出 (function(xargs) for ards 
in some_list) 这 样 兄 长 的 生成 吉 表 达 式 ， 也 更 易 读 。 





8.3 ”使 用 tee() 承 数 克 隆 和 迭代 器 


使 用 tee () 函数 可 以 突破 Python 处 理 可 迭代 对 象 时 的 一 条 重要 规则 ， 这 条 规则 非常 重要 ， 
在 此 重申 2 o 


0 迭代 器 只 能 使 用 一 次 。 


可 以 使 用 tee () 函数 克隆 可 迭代 对 象 ,我 们 可 以 利用 它 多 次 使 用 序列 中 的 数据 而 不 必 实 例 化 
序列 ， 例 如 对 一 个 大 型 数据 集 求 算术 平均 值 的 写法 如 下 所 示 : 
def mean(iterator: Iterator[float]) -> float: 
itO; it1-.= tee(iterator; 2) 
N ‘smeun(tl. for: -iLO) 


BL Su fOr 11 .TCE) 
return sl / NT 


计算 过 程 不 涉及 任何 实例 化 数据 集 的 操作 ， 从 而 避免 了 将 整个 数据 集 放 入 内 存 中 。 注意, 类 
型 标示 float 并 不 排除 使 用 整数 的 场景 , mypy 能 处 理 类 型 转换 规则 , 这 样 的 定义 兼顾 了 整数 和 
实数 类 型 参数 。 














A 太 
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看 上 去 不 错 , 但 实际 使 用 tee () 函数 存在 一 个 严重 的 限制 条 件 。 在 绝 大 多 数 Python 实现 中 ， 


克隆 是 通过 实例 化 序列 实现 的 。 处 理 小 数据 集 时 ， 它 确实 有 助 于 我 们 突破 “只 能 使 用 








制 ， 但 它 对 于 大 型 数据 集 的 效果 往往 不 佳 。 


另外 , 目前 

















次 ”的 限 





tee () 函数 的 实现 方法 需要 遍历 源 迭 代 咒 。 对 使 用 者 来 说 , 如 果 有 无 限 次 使 用 和 





代 需 的 语法 糖 会 很 方便 ,但 在 实际 使 用 中 ,这 样 的 实现 其 实 很 难 驾 驭 .所 以 在 Python 中 使 用 tee() 


函数 时 要 小 心 。 


8.4 


itertools 模块 代码 范例 


Python 库 文档 的 “itertools” 章 的 “Itertools Recipes” 部 分 包含 了 使 用 该 模块 函数 的 很 多 范例 。 





这 里 不 重复 文档 中 的 内 容 ， 而 是 直接 引 月 


汪 


注意 ， 这 里 列 出 的 范例 都 不 是 itertools 模块 中 可 以 导入 的 函数 ， 如 果 想 在 自 



































目 。 学 习 Python 函数 式 编程 ， 这 部 分 文档 属于 必 读 内 容 。 


Python 标准 库 文档 “itertool” 章 的 “Itertools Recipes” 节 是 很 好 的 学 习 资 源 ， 见 
https://docs.python.org/3/library/itertools.html#itertools-recipes。 





己 开发 的 应 








用 中 使 用 这 些 范 例 ， 需 要 阅读 代码 并 理解 原理 ， 然 后 通过 复制 、 修 改 来 使 用 代码 。 
下 表 总 结 了 基于 itertools 模块 中 的 基本 函数 实现 的 一 些 自 定 义 函 数 范例 。 











































































































































































































函 数 名 参数 列表 返回 结果 

take (n, iterable) 以 列表 形式 返回 作为 输入 参数 的 可 迭代 对 象 的 前 n 个 值 。 
基于 islice() 函数 实现 

tabulate (function, start=0) 返回 function(0), function(1),…。 通过 map (function, 
count () ) 实现 

consume (iterator, n) 使 可 迭代 对 象 前 进 对 步 ， 如 果 守 值 为 None， 则 遍历 完 可 和 迭 
代 对 象 ， 返 回 空 列 表 

nth (iterable, n, default=None) 返回 可 迭代 对 象 的 第 n 个 值 ， 如 果 取 不 到 该 值 则 返回 给 定 
的 默认 值 。 基 于 islice () 函数 实现 

aquantify (iterable, pred=bool) 对 可 迭代 对 和 象 的 每 个 元 素 应 用 谓词 函数 ， 返 回 结果 为 “ 真 ” 
的 元 素 个 数 。 基于 sum() 函数 和 map () 函数 实现 , 并 利用 了 
布尔 值 True 转换 为 整数 时 值 为 1 的 特点 

padnone (iterable) 返回 输入 可 迭代 对 象 中 的 值 ,并 在 后 面 追加 无 限 个 None 值 。 
主要 用 于 创建 类 似 于 zip_longest () 或 者 map () 的 函数 

ncycles (iterable, n) 返回 对 次 可 迭代 对 象 中 的 值 

dotproduct (vecl, vec2) 数学 上 向 量 点 积 的 定义 : 两 个 向 量 对 应 分 量 乘积 之 和 

flatten (listOfLists) 展开 一 层 舱 套 列表 ， 将 多 个 列表 链接 为 一 个 列表 

repeatfunc (func, times=None, *args) 根据 输入 的 参数 丈 表 args 执行 times 次 函数 func 











pairwise 





(iterable) 
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( 续 ) 
函数 名 参数 列表 返回 结果 
grouper (iterable, n, 将 输入 数据 按 固定 长 度 分 组 
fillvalue=None) 
roundrobin (*iterables) roundrobiin( Abe ,De Ee) -> DE 
partition (pred, iterable) 根据 谓词 冰 数 将 输入 可 迭代 对 象 划分 为 真 值 部 分 和 非 真 值 
部 分 
unique_everseen (iterable, key=None) 按照 出 现 顺序 列 出 所 有 元 素 ， 之 前 出 现 过 的 元 素 除外 
unique_justseen (iterable, key=None) 按照 出 现 顺 序 ， 列 出 与 前 一 个 元 素 不 同 的 元 素 。 多 用 于 为 
已 排序 的 列表 别 除 相同 元 素 
iter_except (func, exception, 重复 执行 函数 func， 直 到 出 现 异常 。 常 用 于 遍历 操作 ， 直 
first=None) 发生 KeyError 或 者 IndexError 





8.5 小结 
本 章 介绍 了 itertools 模块 中 的 部 分 函数 ， 这 些 函数 有 助 于 我 们 更 好 地 使 用 可 从 代 对 象 。 


首先 介绍 了 无 限 迭 代 器 ， 重 复 执行 而 不 停止 ,包括 count () 、cycle() 和 repeat () 函数 。 
由 于 它们 自身 不 会 终止 ,使 用 它们 的 函数 必须 确定 何 时 停止 接收 数值 。 


然后 介绍 了 有 限 迭 代 器 ， 包 括 内 置 函 数 和 itertools 模块 中 的 函数 。 这 些 函 数 接收 可 迭代 
对 象 作 为 输入 和 参数， 所 以 当 该 对 象 中 不 再 有 值 时 ， 函 数 执行 完毕 ,包括 enumerate()、 
accumulate()、 chain()、 groupby()、 zip_ longest()、zip()、 compress()、 islice().、 
dropwhile()、takewhile()、filterfalse()、filter()、starmap() 和 map()。 使 用 这 


些 函 数 ， 让 我 们 可 以 用 简洁 的 函数 代替 复杂 的 生成 器 表达 式 。 
最 后 介绍 了 官方 文档 中 的 部 分 范例 及 其 实现 方法 , 它们 都 是 常用 的 设计 模式 。 你 可 以 尝试 在 
自己 开发 的 应 用 程序 中 使 用 这 些 范 例 。 


第 9 章 将 介绍 itertools 模块 中 与 排列 组 合 相关 的 函数 。 与 本 章 出 现 的 函数 相 比 ， 这 些 函 
数 不 适 于 处 理 大 型 数据 集 ， 属 于 不 同 的 迭代 处 理工 具 。 
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函数 式 编程 强调 程序 的 无 状态 性 ， 在 Python 中 ， 这 意味 着 开发 者 应 使 用 生成 器 表达 式 。 本 
章 继续 介绍 itertools 库 中 用 于 处 理 可 迭代 集合 的 函数 。 


上 一 章 中 的 迭代 絮 函 数 大 致 分 为 以 下 三 类 。 


口 无 限 和 迭代 器 函数 : 适用 于 任何 可 迭代 对 象 ， 或 者 基于 任何 集合 的 迭代 器 ， 处 理 数据 源 中 
的 所 有 元 素 。 

口 有 限 迭 代 需 函数 : 多 次 汇聚 数据 源 ， 或 者 生成 数据 源 的 归 约 。 

D tee () 函数 : 将 一 个 迭代 器 克隆 多 份 ， 每 个 副本 可 独立 使 用 。 


本 章 介绍 itertools 模块 中 与 排列 组 合 有 关 的 函数 ， 以 及 基于 它们 的 范例 函数 ， 这 些 函数 
包括 : 


口 product () ”返回 输入 集合 的 笛 卡 儿 积 ， 相 当 于 山 套 for 循环 ; 
口 bermutations() 返回 p 维 空间 中 所 有 长 度 为 的 包含 所 有 可 能 顺序 的 元 组 ， 不 含 重复 
元 素 ; 
口 combinations() 返回 p 维 空间 中 所 有 长 度 为 > 的 有 序 元 组 ， 不 含 重复 元 素 ; 
口 combinations_ with replacement() 返回 p 维 空间 中 所 有 长 度 为 x 的 有 序 元 组 ， 包 
含 重复 元 素 。 

使 用 这 些 函 数 可 以 构建 输入 为 小 数据 集 、 输 出 为 大 型 数据 集 的 算法 。 许多 问题 的 解 只 能 在 规 
模 巨 大 的 排列 空间 中 通过 穷 举 的 方式 找到 ， 这 些 函 数 有 助 于 我 们 以 比较 简单 的 方式 生成 排列 空 
间 ， 尽 管 在 某 些 场 景 中 ， 简 单 解 并 非 最 优 解 。 






































9.1 笛 卡 儿 积 
“ 币 卡 儿 积 ” 指 基 于 一 组 集合 生成 所 有 可 能 的 元 素 组 合 。 
从 数学 角度 看 ， 两 个 集合 的 积 {1, 2, 3,…, 13} x {C, D, 五, 5 是 一 个 长 度 为 52 的 二 元 组 集合 。 
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长 人 让) tls “DY (ly TH) (1 8) 
(2 CY (2 DY (2 Hy (2 3 
(133 Cy, “C13 D)y (13 H), ‘(13 :8)} 


运行 如 下 命令 可 以 得 到 解 : 


>>> list(product (range(1, 14), '%¢*Ya')) 
[Xs Ye (ly (Ly) 
(2, '®@'), (2, '$'), (2, '¥') (2, '@') 
(13 时 ') (13 人 (13 v') (13 2')] 














可 以 对 任意 多 个 可 迭代 集合 开展 乘积 运算 。 参 与 计算 的 集合 越 多 ， 结 果 集 越 大 。 





9.2 ”对 积 进行 归 约 


在 关系 数据 库 理论 中 , 可 以 把 表 间 的 join 操作 看 作 带 过 滤 条 件 的 笛 卡 儿 积 。 一 条 SQL 语句 
中 ， 如 果 SELECT 语句 后 面 没有 WHERE 从 句 ， 返 回 结果 就 是 表 中 记录 的 稍 卡 儿 积 ， 或 者 说 不 带 
过 滤 条 件 的 乘积 运算 是 糟糕 的 算法 。 枚 举 所 有 的 组 合 ， 再 通过 过 滤 保 留 符合 条 件 的 组 合 ， 可 以 通 
过 itertools 模块 的 proquct () 函数 实现 。 

































































可 以 通过 下 面 的 函数 定义 两 个 可 迭代 集合 或 者 生成 器 间 的 join 操作 。 


TP TvDevVvar (tn. vy 
def join( 
t1i: Iterable[lJT_] 
t2: Iterablel[lJT_] 
where: Callable[[Tuplel[JT_, JT_]], booll] 
) -> Iterable[Tuplel[lJT_, JT_]]: 
return filter(where, product (t1, t2)) 





J 
里 


’ 
’ 











可 迭代 对 象 tl1 和 t2 的 所 有 组 合 都 参与 计算 .filter() 函数 通过 给 定 的 where () 函数 确定 
对 类 型 为 Tuple [JT_，JT_] 的 二 元 组 的 取舍 。 其 中 where () 因数 类 型 是 callable[ [Tuple 
[JT_，JT_]]，boo1l] ,说明 返回 值 是 布尔 值 。 当 数据 库 中 没有 任何 可 用 的 索引 或 者 顺序 标记 
时 ，SQL 查询 只 能 在 这 种 不 理想 的 场景 中 低 效 运作 。 


























这 种 算法 实现 虽然 可 用 ， 但 效率 很 低 ， 通 常 需要 仔细 研究 问题 和 数据 ， 寻 找 更 高 效 的 算法 。 


首先 稍微 抽象 一 下 问题 ， 用 多 个 数据 项 间 最 大 /最 小 距离 查找 问题 代替 简单 的 布尔 值 匹 配 ， 
比较 的 结果 是 一 个 实数 。 





假设 有 如 下 由 color 对 象 组 成 的 数据 集 : 


from typing import NamedTuple 
class Color (NamedTuple): 
rgb: Tuplel[lint, int, int] 


150 第 9 章 高 级 itertools 技术 





name: str 
[Color (rgb=(239, 222, 205), name='Almond'), 
CoLor (rgbB=(255%255,, L153) 7 Name="Canary™.); 
Color (rgb=(28, 172, 120), name='Green'),... 
Color(rgb=(255, 174, 66), name='Yellow Orange')] 


更 多 信息 可 参考 第 6 章 中 解析 颜色 文件 生成 namedtuple 对 象 的 部 分 .这 里 保持 数据 的 RGB 
三 元 组 形式 ， 不 做 进一步 分 解 。 


包含 一 组 像素 的 图 片 可 以 表示 为 如 下 形式 : 


BiXelS = (ry gr br ge Be (rr. gy Hd 














作为 应 用 广泛 的 类 库 ，PIL ( Python Image Library ) 提供 了 多 种 像素 呈现 方式 ， 包 括 从 (xc, y) 
形式 的 坐标 值 转换 为 RGB 三 元 组 。 关 于 这 个 类 库 的 更 多 信息 ， 请 参考 Pillow 项 目 文档 
( https://pypi.python.org/pypi/Pillow )。 


对 于 一 个 给 定 的 PIL Image 对 象 ， 可 使 用 如 下 脚本 遍历 其 中 每 个 元 素 : 


from PIL import Image 
from typing import Iterator, Tuple 
Point = Tuple[lint, int] 
RGB = Tuple[int, int, int] 
Pixel = Tuple[Point, RGB] 
def pixel_iter(img: Image) -> Iterator[Pixel]: 
w, h = img.size 
return ( 
(c, img.getpixel (c)) 
for c in product (range (w), range (h)) 


























) 


通过 图 像 尺 寸 确 定 坐 标 范围 ， 利 用 product (range (w) ，range (nh) ) 得 到 所 有 可 能 的 像素 
坐标 组 合 ， 实 际 上 相当 于 两 个 藤 套 的 for 循环 。 








这 种 处 理 方 法 的 优点 是 每 个 像素 都 有 各 自 的 坐标 位 置 , 所 以 按照 任意 顺序 处 理 像素 都 能 还 原 
整个 图 像 ， 从 而 可 以 利用 多 进程 技术 或 者 多 线程 技术 将 计算 负载 分 散 到 多 个 内 核 或 者 处 理 器 上 。 
Python 的 concurrent .futures 模块 支持 基于 多 核 (处理 器 ) 的 分 布 式 计 算 。 








9.2.1 计算 距离 


许多 最 优 策略 问题 需要 找到 满足 精度 要 求 的 近似 解 ， 即 不 能 简单 地 判断 值 是 否 相 等 ,而 要 采 
用 茶 种 距离 测量 算法 ， 找 到 距离 目标 最 近 的 元 素 。 例 如 对 于 文本 分 析 ， 可 以 采用 Levenshtein 距 
离 ， 即 从 一 段 给 定 文本 到 目标 文本 需要 做 的 变换 次 数 的 最 小 值 。 


下 面 举例 说 明 ,， 其 中 会 涉及 浅显 的 数学 知识 。 虽 然 这 个 例子 很 简单 ,但 要 得 到 理想 的 结果 仍 
应 避免 使 用 一 些 过 于 简单 直接 的 算法 。 
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处 理 颜 色 匹 配 问题 通常 不 做 精确 的 相等 测试 , 因为 很 难 检 验 像素 颜色 是 否 完全 相同 。 我 们 往 
往 先 定义 一 个 最 短 距离 公式 , 然后 计算 两 个 颜色 是 否 足够 接近 , 但 不 要 对 像素 的 R、G 和 B 都 取 
同样 的 值 。 常用 的 距离 计算 公式 包括 欧 氏 距离 、 曼 哈 顿 距离 以 及 其 他 基于 不 同 视觉 偏好 的 复合 加 
权 计 算 公 式 。 


欧 氏 距离 和 曼哈顿 距离 的 计算 公式 如 下 : 


import matnh 
def euclidean(pixel: RGB, color: Color) -> float: 
return math.sart( 
Sum (map ( 
lambda x, y: (x-y)**2, 
pixel, 
Color.rgb) 














) 


def manhattan (pixel: RGB, color: Color) -> float: 
return Sum (map ( 
lambda x, y: abs (x-y), 
DixXeL; 
color.rgb) 
) 


欧 氏 距离 表示 RGB 空间 中 茶点 与 原点 构成 的 直角 三 角形 斜 边 的 长 度 ， 曼 哈 顿 距离 则 是 直角 
三 角形 各 边 长 度 之 和 。 欧 氏 距 离 精度 高 ， 曼 哈 顿 距离 计算 速度 快 。 

后 续 示 例 的 数据 结构 比较 类 似 , 对 每 个 特定 的 像素 , 计算 其 与 给 定 颜 色 (属于 一 个 由 有 限 颜 
色 组 成 的 集合 ) 的 距离 ， 结 果 如 下 所 示 : 

( 











可 








010007790J7 (92, 139, 195)., Golor(rgb=(239, 222; 205)s name="Almond'), 
169.10943202553784)， 

((0, 0), (92, 139, 195), Color(rgb=(255, 255, 153), name='Canary'), 
204.42357985320578); 

((0, 0), (92, 139, 195), Color(rgb=(28, 172, 120), name='Green'), 
103.97114984456024)， 

((0, 0), (92, 139, 195), Color(rgb=(48, 186, 143), name='Mountain Meadow'), 
82.75868534480233)， 

((0, 0), (92, 139, 195), Color(rgb=(255, 73, 108), name='Radical Red'), 
196.19887869200477)， 

((0, 0), (92, 139, 195), Color(rgb=(253, 94, 83), name='Sunset Orange'), 
201.2212712413874)， 

((0, 0), (92, 139, 195), Color(rgb=(255, 174, 66), name='Yellow Orange'), 


210.7961100210343) 
) 


计算 结果 是 一 个 四 元 组 集合 ， 每 个 元 素 包含 如 下 内 容 : 
口 像素 的 坐标 ,例如 (0，0); 
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口 像素 的 颜色 ， 例 如 (92，139，195) ; 
口 7 种 颜色 集合 中 的 某 个 color 对 象 ， 例 如 color(rgb=(239，222，205) ,name= 
Almonad ' ) ; 


口 像素 颜色 与 给 定 color 对 象 间 的 欧 氏 距离 。 


























不 难 发 现 欧 氏 距离 的 最 小 值 就 是 最 接近 的 匹配 颜色 ,通过 在 归 约 中 使 用 min () 函数 可 以 方便 
地 得 到 这 个 值 。 当 把 上 面 的 颜色 元 组 赋 给 choices 变量 时 ， 像 素 级 的 归 约 实现 如 下 : 


min(choices, key=lambda xypcd: xypcd[3]) 














用 xypca 代表 每 个 四 元 组 ， 也 就 是 坐标 、 像 素 、 颜 色 和 距离 。 距 离 的 最 小 值 表示 给 定 像素 
的 最 佳 匹配 颜色 。 
9.2.2 ”获得 所 有 像素 和 颜色 


如 何 获得 包含 所 有 像素 和 颜色 的 结构 体 ? 方法 并 不 复杂 , 不 过 稍 后 你 将 看 到 , 这 种 方法 并 不 
是 最 优 解 。 


将 像素 映射 到 颜色 的 一 种 方法 是 使 用 product () 函数 穷 举 所 有 像素 和 颜色 。 


























xy = lambda xyp_c: xyp_c[ 
p = lambda xyp_c: xyp_c[0 
c = lambda xyp_c: xyp_c[1 





0] [0] 
J 
] 
distances = ( 

(xy (item), pl(item), c(item), euclidean(p(item), c(item))) 


for item in product (pixel_iter (img), colors) 
) 











核心 部 分 是 使 用 product (pixel_iter(img)，colors) 生 成 像素 和 颜色 的 所 有 组 合 ， 然 
后 重 构 得 到 的 数据 使 之 扁平 化 , 并 使 用 sucliaean () 函数 算出 像素 颜色 和 color 对 象 颜 色 之 间 
的 距离 。 返 回 结果 是 一 个 四 元 组 序列 ， 元 组 元 素 分 别 为 : x-y 坐标 、 源 像素 点 、 给 定 颜色 ， 以 及 
像素 颜色 到 给 定 颜色 间 的 距离 。 














最 后 使 用 grouppy () 函数 和 min (choices，...) 表 达 式 得 到 颜色 结果 ， 如 下 所 示 : 
for _, choices in grouppy ( 





distances, key=lambda xy_p_c qd: xy _p cdq[0]) : 
yield min(choices, key=lambda xypcd: xypcdq[3]) 


像素 和 颜色 做 乘积 运算 得 到 一 个 很 长 的 一 维 可 迭代 对 象 , 按照 其 中 的 坐标 值 进行 分 组 , 将 其 
分 解 为 一 组 相对 较 短 的 可 迭代 对 象 ， 每 个 对 应 一 个 像素 ， 然 后 选 出 距离 最 短 的 颜色 。 








在 一 幅 包 含 133 种 Crayola 色彩 的 、 尺 寸 为 3648x2736 的 图 像 中 ， 上 面 的 算法 需要 迭代 计算 
1 327 463 424 次 。 是 的 ，distances 表达 式 生 成 了 数 十 亿 计 的 组 合 ， 这 个 规模 还 不 至 于 无 法 计 
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算 ，Python 尚 能 处 理 ， 但 足以 体现 简单 直接 地 使 用 produce () 函数 会 出 现 问题 。 

进行 大 规模 数据 处 理 时 ， 必 须 估算 规模 。 运 行 100 万 次 距离 计算 后 ， 用 timeit () 函数 测 出 
的 运行 时 间 如 下 : 
口 吹 氏 距离 . 2.8 
口 曼哈顿 距离 : 1.8 
扩大 1000 倍 ， 从 运行 100 万 次 到 运行 10 亿 次 ， 曼 哈 顿 距离 计算 需要 1800 秒 ， 即 半 小 时 ， 
欧 氏 距离 计算 则 需要 46 分 钟 。 对 于 大 型 数据 集 ， 这 种 计算 方法 效率 太 低 了 。 

更 重要 的 是 ， 这 种 做 法 是 错误 的 。 这 种 “宽度 x 高 度 x 颜 色 ” 的 直接 处 理 是 糟糕 的 算法 设计 ， 
很 多 情况 下 有 更 好 的 方案 。 









































9.2.3 性 能 分 析 


大 型 数据 算法 的 核心 要 素 之 一 是 执行 某 种 分 治 策略 , 这 点 对 函数 式 编程 和 命令 式 编程 都 是 成 
立 的 。 


可 以 通过 下 面 3 种 方法 提高 处 理 速度 。 


口 使 用 并 行 策略 实现 并 发 计算 ， 例 如 使 用 4 核 处 理 器 ， 处 理 时 间 大 约 变 为 原来 的 14， 上 面 
的 曼哈顿 距离 计算 可 以 缩短 到 8 分 钟 左右 。 

口 保存 中 间 计 算 结 果 以 避免 重复 计算 ， 搞 清楚 需要 计算 的 相同 颜色 和 不 同 颜色 的 数量 。 

口 使 用 新 算法 。 


可 以 将 后 两 种 方法 结合 ， 比 较 所 有 源 色 彩 和 目标 色彩 。 与 逐个 像素 的 计算 方法 相 比 ， 这 种 方 
式 预 先 穷 举 所 有 可 能 的 映射 关系 来 避免 重复 计算 。 本 质 上 这 是 将 一 系列 比较 运算 转换 成 了 在 映射 
对 象 中 进行 查 表 操 作 。 


对 一 张 具体 的 图 片 进行 预先 的 、 源 到 目标 的 穷 举 映射 计算 时 ,首先 要 整体 评估 问题 规模 ,本 
书 随 附 的 代码 中 包含 一 张 名 为 “IMG_2705.jpg” 的 图 片 。 下 面 的 算法 初步 估算 该 图 片 的 颜色 元 组 
的 总 规模 : 



















































































from collections import defaultdict, Counter 
palette = defaultdict (list) 
for xy, rgb in pixel_ iter (img): 

palettel[rgb] .append (xy) 


w, h = img.size 


print ("Total pixels", w * h) 
print ("Total colors", len(palette)) 


对 所 有 像素 ,按照 其 颜色 值 进行 分 组 , 将 相同 颜色 的 像素 放 入 同一 个 列表 中 ,从 计算 结果 中 
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可 以 得 到 如 下 信息 : 


口 像素 总 数 为 9 980 928， 对 于 一 个 10MB 大 小 的 图 片 来 说 ， 这 个 数字 在 意料 之 中 ; 
口 共有 210 303 种 颜色 ,计算 这 些 颜 色 与 133 种 目标 颜色 之 间 的 欧 氏 距离 ， 只 需 27 970 299 
次 计算 ， 大约 花 费 76 秒 ; 
口 使 用 3 比特 遮 置 ob11100000 时 ,在 总 共 2 x 2 x 2:=512 种 可 能 的 颜色 集合 中 ， 实 际 用 
到 214 种 ; 
口 使 用 4 比特 让 四 ob11110000 时 ， 实 际 用 到 1150 种 ; 
口 使 用 5 比特 让 四 0b11111000 时 ， 实 际 用 到 5845 种 ; 
口 使 用 6 比特 遮 四 0b11111100 时 ， 在 总 共 26x24x24= 262 144 种 颜色 集合 中 ， 实 际 用 到 
27 726 种 。 
这 有 助 于 我 们 理解 如 何 重组 数据 结构 、 快 速 实现 颜色 适 配 计算 并 重建 图 像 ， 以 避免 进行 十 亿 
级 的 比较 运算 。 
使 用 遮 置 的 作用 是 保留 作用 大 的 比特 , 去 掉 作 用 小 的 比特 , 比如 有 一 个 红色 值 为 200 的 颜色 ， 
可 以 使 用 Python bin () 函数 查看 其 二 进 制 表示 。 


>>> bin(200) 
'0b11001000' 

>>> 200 & 0p11100000 
192 

>>> bin(192) 
'0b11000000'! 






























































表达 式 200 & 0b11100000 擦 除了 颜色 的 最 低 5 比特 ,保留 了 最 高 3 比特 ， 最 终结 果 是 大 
小 为 192 的 红色 值 。 


对 RGB 三 元 组 的 庶 堂 处理 如 下 所 示 : 


masked_color = tuple(map(lambda x: x & 0b11100000, c)) 


























使 用 & 运算 符 选择 特定 的 比特 ， 只 保留 红 、 绿 、 蓝 的 前 3 比特 代替 之 前 完整 的 颜色 值 ， 基 于 
它们 创建 counter 对 象 后 , 可 知 使 用 遮 尝 后 共产 生 214 个 颜色 值 , 不 到 理论 颜色 值 数量 的 一 半 。 








9.2.4 ” 重 构 问 题 


直接 用 prodquce () 函数 比较 所 有 像素 和 颜色 显然 不 可 取 ， 毕 竟 1000 万 个 像素 只 有 20 万 种 
颜色 。 要 把 源 色彩 映射 到 目标 色彩 ， 只 要 将 这 20 万 种 颜色 保存 在 一 个 表 中 即 可 。 


有 具体 实现 方法 如 下 。 
(1) 计算 源 色彩 到 目标 色彩 的 映射 ， 这 里 使 用 3 比特 表示 输出 值 。R、G、B 三 个 量 中 ， 每 个 
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的 8 种 可 能 取 值 用 range (0,256，32) 表 示 。 枚 举 所 有 输出 值 的 表达 式 如 下 :product (range (0， 
2.50, 3B) Tande(0; 2Z256, B32) Tanlge(0, BHD6,.32)) 

(2) 然后 计算 源 色 彩 表 中 与 最 近 颜 色 的 欧 氏 距离 ， 共 需 68 096 次 计算 ， 耗 时 约 0.14 秒 。 这 个 
步骤 只 需 执行 一 次 ， 生 成 20 万 个 映射 。 

(3) 对 图 像 做 一 次 性 处 理 ， 基 于 修正 后 的 颜色 表 生 成 新 图 像 。 这 里 利用 整数 截断 方法 ， 通 过 
类 似 于 (0pb11100000 & r，0b11100000 & g，0b11100000 & bp) 这样 的 表达 式 去 掉 颜色 中 
不 太 重 要 的 比特 ， 后 面 的 计算 中 还 会 用 到 该 方法 。 


这 样 就 将 一 个 十 亿 级 的 欧 氏 距离 计算 转化 为 千 万 级 的 查 表 运算 , 耗 时 从 30 分 钟 降 至 30 秒 左右 。 


采用 生成 从 源 色彩 到 目标 色彩 的 静态 映射 表 , 而 不 是 对 每 个 像素 进行 颜色 映射 ,就 建立 了 从 
原始 颜色 到 新 颜色 的 简单 映射 关系 。 

有 了 这 个 包含 20 万 种 颜色 的 色彩 表 ， 就 可 以 通过 它 计算 曼 哈 顿 距离 ， 确 定 相 对 于 某 种 输出 
(例如 蜡笔 色彩 ) 的 最 接近 颜色 了 。 用 前 面 讲 过 的 色彩 匹配 算法 计算 映射 关系 而 不 是 结果 图 像 ， 
最 主要 的 区 别 是 用 palette.keys () 函数 代替 pixel_iter() 函 数 。 


稍 后 会 介绍 另 一 项 优化 技术 一 一 截断 ， 用 以 加 速算 法 。 















































9.2.5 ”合并 两 种 变换 


组 合 多 个 变换 可 以 构建 出 复杂 的 映射 关系 ,把 原始 数据 转换 为 中 间 值 ， 再 生成 最 终结 果 。 下 
面 介 绍 如 何 将 颜色 截断 和 映射 组 合 在 一 起 。 


在 某 些 问 题 域 中 ， 难 以 执行 截断 操作 , 但 在 男 一 些 场景 中 却 很 简单 。 例 如 从 9 位 长 的 美国 邮 
政 编码 中 截取 5 位 ， 或 者 进一步 截取 3 位 ， 来 确定 此 邮编 所 在 的 大 体 地 理 方位 。 


对 于 颜色 ,可 以 使 用 前 面 讲 的 比特 遮 浊 技术, 将 3 个 8 比特 值 ( 共 24 比特 ，1600 万 种 颜色 ) 
转换 为 3 个 3 比特 值 ( 共 9 比特 ，512 种 颜色 )。 


创建 一 组 颜色 映射 ， 其 中 包含 到 一 组 给 定 颜色 的 距离 ， 以 及 对 源 颜色 的 截断 ， 如 下 所 示 : 


bit3 = range(0, 256, 0b100000) 
best = (min((euclidean(rgb, c), rgb, c) for c in colors) 
fOr ra. Tn Broducet (Bit BiC3 bit 

color_map = dict((b[1], b[2] .rgb) for b in best) 


通过 range 创建 对 象 pit3, 遍历 3 比特 颜色 的 所 有 8 个 值 。 使 用 二 进 制 值 ob100000 有 助 
于 我 们 更 好 地 理解 使 用 比特 的 方法 ， 忽 略 不 重要 的 5 比特 ， 只 使 用 最 高 的 3 比特 。 















































range 对 象 与 普通 可 和 迭代 对 象 不 同 , 可 以 重复 使 用 ,所 以 这 里 用 prodquct (bit3， 
bit3，bit3) 表 达 式 生成 所 有 512 种 颜色 组 合作 为 输出 颜色 。 
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我 们 为 每 个 被 截断 的 RGB 颜色 创建 了 一 个 三 元 组 ， 包 含 元 素 : (0) 到 所 有 蜡笔 颜色 的 距离 ， 
(1) 这 个 RGB 颜色 本 身 ，(2) 代 表 晴 笔 颜 色 的 color 对 象 。 对 该 集合 求 最 小 值 ， 就 得 到 了 与 这 个 
被 截断 RGB 颜色 最 接近 的 晴 笔 颜色 对 象 。 


这 样 就 有 了 从 任何 被 截断 RGB 颜色 到 与 它 最 接近 的 蜡笔 颜色 的 映射 关系 对 象 。 在 查找 一 个 
与 源 色 彩 最 匹配 的 晴 笔 颜色 前 ,首先 要 对 源 色 彩 做 截断 处 理 。 这 里 的 截断 计算 与 预先 计算 得 到 的 
颜色 映射 表 是 对 映射 技术 的 组 合 使 用 。 


实现 图 像 替 换 的 代码 如 下 所 示 : 


mask = 0b11100000 

clone = img.copy() 

for xy, rgb in pixel_iter (img): 
Fr DL 
repl = color map[ (mask&r, mask&g, mask&b)] 
clone.putpixel (xy, repl .rgb) 

clone.show!() 


使 用 PIL 库 中 的 putpixel () 函数 替换 了 图 片 中 的 像素 。 喷 日 值 保 留 了 原始 颜色 值 的 最 高 3 
个 比特 ， 最 终生 成 的 颜色 是 原来 颜色 集合 的 一 个 子 集 。 


可 见 使 用 函数 式 编程 工具 可 以 生成 简洁 明了 但 低 效 的 算法 , 所 以 衡量 算法 复杂 度 的 主要 工具 
(也 称 大 O 分 析 ) 对 于 函数 式 编程 和 命令 式 编程 同样 重要 。 


这 里 的 关键 问题 不 是 product () 函数 低 效 ， 而 是 使 用 progduct () 函数 创建 的 算法 低 效 。 


9.3 ”排列 集合 元 素 

排列 集合 元 素 指 列 出 集合 中 元 素 的 所 有 排列 形式 。 对 于 长 度 为 n 的 集合 ,共有 nl! 种 排列 形式 ， 
很 多 优化 问题 都 使 用 排列 进行 暴力 求解 。 

阅读 维基 百科 词 条 Combinatorial optimization， 可 知 对 于 大 规模 问题 ， 穷 举 所 有 排列 并 不 适 
合 ， 但 对 于 小 规模 问题 ， 使 用 itertools .permutations () 子 数 求 解 很 方便 。 

组 合 优化 的 一 个 经 典 应 用 是 分 配 任务 : n 位 员工 要 完成 项 任务 , 但 每 个 人 完成 某 项 任务 的 
成 本 是 不 同 的 。 同 一 项 任务 ， 某 些 员工 处 理 起 来 成 本 很 高 ， 另 一 些 员工 处 理 起 来 成 本 却 比 较 低 。 
我 们 的 任务 是 恰当 地 为 每 位 员工 分 配 任务 ， 使 得 总 成 本 最 低 。 

不 妨 创建 一 个 表格 来 记录 每 位 员工 完成 每 项 任务 的 成 本 。 假 设 现 有 6 位 员工 要 完成 6 项 任务 ， 
则 表格 中 要 记录 36 个 成 本 值 ， 每 格 中 的 数字 分 别 表示 0 到 5 号 员工 完成 任务 A 到 任务 上 需要 的 
成 本 。 

要 列 出 集合 的 所 有 可 能 排序 不 难 ， 但 这 种 方法 的 扩展 性 不 好 。 例 如 10! 等 于 3 628 800， 可 以 
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用 1ist (permutations (range(10) ) ) 得 到 全 部 300 多 万 个 序列 。 


通常 我 们 希望 在 几 秒 内 就 得 到 问题 的 答案 。 如 果 前 面 的 问题 规模 翻 一 倍 ， 到 20!， 即 
2 432 902 008 176 640 000 组 排列 时 ， 就 会 出 现 扩展 性 问题 。 如 果 生 成 10! 个 排列 需要 0.56 秒 ， 那 
么 生成 20! 组 排列 值 则 需要 12 000 年 。 


假设 已 有 的 成 本 和 矩阵 包含 36 个 值 ， 显 示 6 位 员工 完成 6 个 任务 的 所 有 可 能 成 本 ， 可 如 下 所 
示 计 算 最 优 解 : 
perms = permutations (range(6) 


alternatives = | 


( 














sum( 
cost[x] [y] for y, x in enumerate (perm) 
jy 
perm 
) 
for perm in perms 
] 


m = min(alternatives){0] 


print([ans for s, ans in alternatives if s == ml]) 
首先 生成 每 名 员工 执行 每 个 任务 的 所 有 排列 ， 保 存在 perms 中 ， 然 后 创建 每 个 组 合 与 该 组 


合 的 总 成 本 的 二 元 组 。 为 了 计算 某 项 任务 的 成 本 ， 需 要 枚 举 各 个 组 合 ， 形 成 员工 与 任务 二 元 组 。 
例如 有 个 组 合 是 (1，3，4，2，0，5) ， 对 应 的 员工 与 任务 二 元 组 list (enumerate((1，3，4， 
2，0，5)) ) 的 值 为 [(0，1)，(1，3)，(2，4)，(3，2)，(4，0)，(5，5) ] 。 成 本 和 矩阵 中 
组 合 值 之 和 就 是 这 项 任务 组 合 的 总 成 本 。 


最 小 值 对 应 的 就 是 最 优 解 。 很 多 时 候 最 优 解 不 止 一 个 ， 上 面 的 算法 可 以 找到 所 有 最 优 解 。 表 
达 式 min(alternatives) [0] 返 回 最 小 值 集合 的 第 一 个 元 素 。 


对 于 示例 规模 的 问题 ， 这 种 解法 速度 很 快 ， 但 对 于 更 大 规模 的 问题 ， 采 用 近似 算法 更 适合 。 















































9.4 生成 所 有 组 合 


除了 排列 ，itertools 模块 还 提供 了 计算 集合 元 素 组 合 的 函数 。 对 于 组 合 来 说 ， 顺 序 不 重 
要 。 对 于 一 个 给 定 的 集合 ， 组 合 的 数量 远 小 于 排列 的 数量 ， 对 于 p 个 元 素 组 成 的 集合 ,+r 元 组 合 


pp | PI PP! 
的 数量 为 |- 有 











例如 ，5 张 扑克 牌 共有 2 598 960 种 组 合 方式 ， 以 下 代码 列 出 了 所 有 组 合 形式 : 


hands = listl( 
combinations (tuple(product (range (13), 'aYv¢%')), 5)) 
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实际 应 用 中 , 在 对 包含 多 个 变量 的 数据 集 进行 探索 性 分 析 时 , 经 常 要 计算 任意 两 个 变量 间 的 
相关 性 。 如 果 有 个 变量 ， 可 用 下 面 的 表达 式 枚 举 所 有 需要 比较 的 变量 对 : 


combinations (range(v), 2) 


下 面 从 http://www. lige com 取样 本 数据 来 展示 完整 的 处 理 流程 ,首先 从 中 选择 3 个 有 共 
同时 间 范 围 的 样本 : 第 7 号 、 第 43 号 和 第 3890 号 , 把 它们 放 在 同一 个 数据 表 中 , 保留 各 自 的 “年 
份 ” 列 。 


数据 表 第 一 行 和 后 面 按 年 份 排列 的 数据 行 如 下 所 示 : 


[('year', 'Per capita consumption of cheese (US)Pounds (USDA)' 
'Number of people who died by becoming tangled in their bedsheetsDeaths (US) (CDC)' 
'year', 'Per capita consumption of mozzarella cheese (US)Pounds (USDA)' 
'Civil engineering doctorates awarded (US)Degrees awarded (National Science Foundation)', 
'year', 'US crude oil imports from VenezuelaMillions of barrels (Dept. of Energy)' 
'Per capita consumption of high fructose corn syrup (US)Pounds (USDA)'), 

(2000, 29%.8; 327; 2000, 9.3; 480,; 2000, M46; .62»6), 














(200., T7303 1 A456 2001 QEn: SOL,. -200 47 62 5) 
(20023 305> .S509 ‘2002,. .977 S40 2002.,. ,438%, 6278)5 
(2003: 30%67 49 20033 :77 B02 2003, W4367 0059)y 
(20047 S31.35 S96 2004 :979 S447 O04 47 3 S598) 
(2005. 31a7» S573 2005; 10.2;) 622 2005» 449, 59, 1), 
(2006, 32.6 .68661 :2006, T1056557 2006, -416», 58:2); 
(20077 B37 TUL ZOO Tl; FOL D007 420 S56 1) 

人 0087 32% 7%. 009, F008 L067 Th2, 2008,, .38L. 3) 

(2009, 32e85 ZLY7y ZO0097 L067; "708 00 332 S01) 


使 用 combinations () 函数 基于 9 个 变量 生成 所 有 二 元 比较 对 。 


combinations (range (9), 2) 
共有 36 种 组 合 ， 去 掉 其 中 由 各 个 年 份 列 形成 的 组 合 ， 它 们 的 相关 系数 是 1.00。 
从 数据 集中 提取 列 的 函数 如 下 所 示 : 


from typing import TypeVar, Iterator, Iterable 
T_ = TypeVar("T_") 
def columm(source: Iterableél[lListlT 1 x int} -=> Iteraton[T..l: 
for row in source: 
yield row[x] 


然后 用 第 4 章 中 的 corr () 函数 比较 两 列 数据 。 
如 下 所 示 计 算 所 有 组 合 相 关系 数 : 


from itertools import * 

from Chapter_4.ch04 ex4 import corr 

for p, q in combinations (range (9), 2): 
header_p, *data p = list(column(source, p)) 
header_q, *data q = list(column(source, 9q)) 
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if header _p == header_q: 
continue 
r pq = Teorrtdata pp data oJ} 
print("{2: 4.2f}: {0} vs {1}".format (header_p, header _q, r_pq)) 


对 于 组 合 在 一 起 的 列 ， 首 先 将 它们 从 数据 集中 提取 出 来 ，header_p，*data_p = 语句 通过 
多 重 赋值 将 序列 的 第 一 个 值 ( 即 标题 ) 与 后 面 的 数据 分 离 。 如 果 标 题 一 致 ， 说 明 参 与 计算 的 是 同 
一 列 。 在 上 面 的 数据 集中 ， 由 于 存在 3 个 重复 的 年 份 列 ， 所 以 要 排除 这 种 情况 。 


之 后 用 相关 性 函数 处 理 这 些 列 ， 得 到 相关 系数 , 再 打印 出 这 些 列 的 标题 ， 这 里 特意 选择 了 几 
个 模式 不 同 但 相关 度 很 高 的 伪 相 关 特 征 。 


计算 结果 如 下 : 


0.96: year vs Per capita consumption of cheese (US) Pounds (USDA) 

0.95: year vs Number of people who died by becoming tangled in their 
bedsheetsDeaths (US) (CDC) 

0.92: year vs Per capita consumption of mozzarella cheese (US) Pounds (USDA) 
0.98: year vs Civil engineering doctorates awarded (US) Degrees awarded (National 
Science Foundation) 

-0.80: year vs US crude oil imports from Venezuela Millions of barrels 

(Dept. of Energy) 

-0.95: year vs Per capita consumption of high fructose corn syrup (US) Pounds (USDA) 
0.95: Per capita consumption of cheese (US) Pounds (USDA) vs Number of people who 
died by becoming tangled in their bedsheetsDeaths (US) (CDC) 

0.96: Per capita consumption of cheese (US) Pounds (USDA) vs year 

0.98: Per capita consumption of cheese (US) Pounds (USDA) vs Per capita 
consumption of mozzarella cheese (US) Pounds (USDA) 



































0.88: US crude oil imports from VenezuelaMillions of barrels (Dept. of Energy) 
VS Per capita consumption of high fructose corn syrup (US) Pounds (USDA) 


数据 体现 出 的 模式 的 意义 尚 不 清楚 , 为 什么 存在 相关 性 ” 这些 缺乏 明确 意义 的 、 含 混 的 相关 
性 会 干扰 统计 分 析 ， 但 我 们 找到 了 那些 相关 性 很 高 却 缺乏 关联 因素 的 数据 。 

这 里 的 重点 是 使 用 简单 的 表达 式 combinations (range (9)，2) 生 成 了 所 有 可 能 的 数据 组 
合 。 利 用 这 类 简单 易 用 的 技术 让 我 们 可 以 专注 于 处 理 数据 分 析 中 的 问题 ， 而 不 必 费 心 于 构建 组 合 
算法 。 























9.5 代码 范例 


Python 库 文 档 中 itertools 章 的 Ttertools Recipes 部 分 很 精彩 ， 基 本 定义 后 面 跟着 一 
系列 范例 ,逻辑 清晰 且 实 用 性 强 。 这 里 不 会 重复 文档 中 的 内 容 ， 而 是 直接 给 出 出 处 。 学 习 Python 
函数 式 编程 ， 这 部 分 文档 属于 必 读 内 容 。 


Python 标准 库 文档 10.1.2 节 “Itertools Recipes” 是 非常 好 的 学 习 资源 ， 见 https://docs.python. 
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org/3/library/itertools.html#itertools-recipes。 








需要 说 明 的 是 ， 这 里 列 出 的 范例 都 不 是 itertools 模块 中 可 以 导入 的 函数 ， 如 果 想 在 自己 
开发 的 应 用 中 使 用 这 些 范 例 ， 需 要 阅读 代码 并 理解 原理 ， 然 后 通过 复制 、 修 改 来 使 用 代码 。 


下 面 的 表格 总 结 了 基于 itertools 模块 中 的 基本 函数 实 











现 的 一 些 函 数 式 编程 范例 。 



































函 数 名 参数 列表 返回 结果 

powerset (iterable) 生成 输入 参数 iterable 的 所 有 子 集 , 每 个 子 集 是 一 个 元 组 对 象 ， 
不 是 集合 实例 

random_ product (*args, repeat=1) 从 itertools.product (*args，**kwds) 随 机 返回 部 分 值 














random permutation 


(iterable, r=None) 


从 itertools .permutations (iterable, r) 随机 返回 部 分 值 











random_ combination 


9.6 小 结 


本 章 重 点 介绍 了 itertools 模块 中 的 几 个 函数 ， 利 月 
好 地 使 用 可 迭代 对 象 。 


progduct () 蜀 数 从 7 








(iterable, r=None) 





























从 itertools.combinations (iterable,r) 随 机 返回 部 分 























i 








有 该 组 件 库 提供 的 工具 ， 开 发 者 可 以 更 


页 个 或 多 个 集合 中 选择 元 素 ， 返 回 所 有 可 能 的 组 合 ，permutations () 
函数 返回 和 输入 集合 的 所 有 可 能 排列 ， 而 combinations () 函数 返回 输入 集合 的 所 有 子 集 。 


本 章 还 介绍 了 如 何以 简单 直接 的 方式 使 用 product () 和 





berrmutations () 函数 来 生成 巨大 


的 结果 数据 集 ， 旨 在 提醒 开发 者 : 即便 在 简单 明了 的 算法 实现 中 ,也 可 能 涉及 巨大 的 计算 量 , 开 








发 者 需要 预 佑 复杂 度 ， 确 保 算 法 能 在 可 接受 的 时 间 内 给 出 结果 。 


下 一 章 将 详细 介绍 functools 模块 ， 其 中 一 些 工 























现 基 于 第 2 章 和 第 5 章 的 内 容 。 





具 用 于 处 理 作 为 头等 对 象 的 函数 ， 部 分 实 


functools 模块 








函数 式 编程 强调 将 函数 作为 头等 对 象 。 前 面 介绍 过 用 函数 作为 参数 和 返回 值 的 高 阶 函 数 , 本 
章 将 介绍 functools 库 中 用 于 创建 和 修改 函数 的 几 个 高 阶 函数 。 

本 章 主要 介绍 高 阶 函 数 ， 第 5 章 讲 过 它 ， 第 11 章 还 会 介绍 高 阶 函数 相关 技术 。 

本 章 将 介绍 以 下 函数 。 
口 elru_cache: 该 装饰 器 可 以 显著 提升 某 些 应 用 的 性 能 。 
口 @total_ordering: 该 装饰 器 有 助 于 创建 功能 强大 的 比较 运算 符 , 促 使 我 们 认真 思考 面 
向 对 象 编程 和 函数 式 编程 混合 使 用 时 需要 解决 的 一 些 普 遍 性 问题 。 
口 bartial(): 可 以 利用 该 函数 将 部 分 参数 传 给 指定 函数 ， 从 而 创建 一 个 新 函数 。 
口 reduce () : 创建 抽象 规约 (例如 sum() ) 的 高 阶 函数 。 

functools 库 中 的 两 个 函数 update_wrapper() 和 wraps () 留待 下 一 章 详 述 , 下 一 章 还 会 
介绍 如 何 编写 自 定 义 装 饰 器 。 


本 章 不 讨论 cmp_to_key () 函数 , 它 让 基于 比较 的 Python 2 版 本 的 代码 能 在 基于 键 值 提取 的 
Python 3 中 运行 。 本 书 立 足 于 Python 3， 只 关注 如 何 正确 编写 键 值 函 数 。 









































10.1 因数 工具 


第 5 章 介绍 过 几 个 高 阶 函 数 ， 它 们 以 函数 为 参数 或 者 返回 函数 ( 以 及 生成 器 表达 式 )。 可 以 
通过 注入 一 个 外 部 函数 来 定制 这 些 高 阶 函 数 定义 的 算法 ，max() 、min() 、sorted() 等 郴 数 通 
过 接收 一 个 key= 函 数 实现 定制 , map () 、filter () 等 函数 则 通过 接收 一 个 函数 和 一 个 可 迭代 对 
象 来 将 函数 参数 应 用 于 可 迭代 对 象 。map () 函数 对 计算 结果 做 yield 处 理 ，filter () 函数 利用 参 
数 函数 返回 的 布尔 值 决 定 对 可 迭代 对 象 中 值 的 取舍 。 

第 5 章 介绍 的 所 有 函数 都 在 Python 的 _builtins_ 包 内 ,无 须 使 用 import 语句 即 可 使 用 。 
这 些 函 数 应 用 非常 广泛 , 无 须 专 门 导入 。 本 章 介 绍 的 函数 则 必须 通过 import 语句 导入 ,因为 它 
们 不 如 前 者 应 用 广泛 。 
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这 里 有 个 特殊 情况 : reauce () 函数 原本 内 置 在 ”builtins” 包 中 ,后 来 为 了 避免 滥用 ， 
经 过 社区 讨论 , 将 它 移出 了 __builtins。_ 包 。 使 用 该 函数 执行 一 些 似 乎 很 简单 的 操作 时 ， 也 会 
出 现 明显 的 性 能 问题 。 


10.2 使 用 1ru_cache 保存 已 有 计算 结果 


使 用 elru_cache 装饰 器 能 加 快 函数 运行 ,其 中 LRU 指 最 近 使 用 的 (leastrecentused ) 一 一 
最 近 使 用 过 的 计算 结果 会 保留 在 这 个 容量 有 限 的 池子 中 。 为 了 避免 池 中 内 容 无 限制 地 增加 , 会 清 
除 不 常用 的 计算 结果 。 

作为 装饰 器 ， 可 以 将 它 应 用 于 需要 保存 之 前 计算 结果 的 任何 函数 ， 示 例如 下 : 

from functools import lru_cache 

@lru_cache (128) 

[el= i ole bo ls odo te Pal oe 

Lf i Es 0 et 0 
i oA a a 计 : 
return fibc(n - 1) + fibc(n - 2) 

该 示例 基于 第 6 章 的 斐 波 那 契 数列 算法 实现 。 由 于 对 简单 的 裴 波 那 契 数列 算法 应 用 了 
elru_cache 装饰 需 ， 每 次 调用 fibc tn) 时 ， 都 会 检查 由 装饰 需 维 护 的 缓存 池 。 如 果 参 数 n 在 
缓存 池 中 ,直接 使 用 对 应 的 计算 结果 ,避免 了 重复 计算 导致 的 成 本 增加 。 每 次 计算 的 结果 都 会 保 
存 到 缓存 池 中 。 

上 例 意 在 展示 斐 波 那 契 数列 的 简单 递归 实现 的 计算 量 是 非常 大 的 , 每 次 计算 给 定 的 斐 波 那 契 
数 丈 时 ， 不仅 要 计算 已 ， 而 且 要 计算 fF, ，,，， 这 棵 递归 树 的 计算 复杂 度 是 0(2”)。 

装饰 需 中 的 参数 128 定义 了 缓存 池 的 大 小 ， 用 于 限制 内 存 的 使 用 上 限 。 当 缓存 池 满 时 ,LRU 
计算 结果 会 被 新 值 覆 盖 。 

下 面 通过 timeit 模块 验证 该 装饰 需 提 升 性 能 的 幅度 。 将 两 个 实现 各 运行 1000 次 ， 比 较 所 
用 的 时 间 。 分 别 运行 fipbp(20) 和 fibc(20) ， 就 可 以 看 到 不 用 缓存 的 计算 极 慢 , 由 于 计算 耗费 的 
时 间 过 多 ， 这 里 把 timeit 重复 计算 的 次 数 仅 设置 为 1000， 计 算 消 耗 的 时 间 如 下 所 示 。 

口 非 缓存 实现 : 3.23 
口 带 缓 存 实 现 : 0.0779 

请 注意 ， 不 能 将 timeit 模块 直接 应 用 于 函数 fibc () ， 由 于 缓存 的 存在 ， 直 接应 用 时 只 有 
一 次 真正 计算 ， 计 算 结 果 保 存在 缓存 池 中 ,其 他 999 次 计算 直接 从 缓存 中 取 结 果 , 并 没有 再 次 计 
算 。 每 次 计算 后 需要 清空 缓存 ， 否 则 总 计算 时 间 将 接近 0。 清 空 计 算 结 果 由 装饰 器 的 
fibc.cache_clear () 方 法 实现 。 

缓存 是 个 很 强大 的 工具 ， 很 多 算法 都 可 以 通过 缓存 结果 提升 性 能 。 

在 包含 p 个 元 素 的 集合 中 抽取 7 个 元 素 的 公式 如 下 : 
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P|_ Pp! 
r) ri(p—r)! 


该 二 项 分 布 函 数 包含 了 3 个 阶乘 计算 。 在 阶乘 函数 上 使 用 elru_cache 很 有 必要 ,借助 缓存 
计算 二 项 分 布 值 就 不 必 重 复 计算 阶乘 了 。 如 果 计 算 过 程 包含 大 量 重复 计算 , 使 用 缓存 可 以 显著 缩 
短 计 算 时 间 ， 但 在 计算 结果 很 少 被 复 用 的 场景 中 ， 维 护 缓存 的 开销 可 能 会 抵消 速度 提升 。 


对 于 上 面 这 个 包含 大 量 重 复 计 算 的 场景 ， 有 无 缓存 消耗 的 时 间 分 别 如 下 。 


口 无 缓存 阶乘 : 0.174 
口 有 缓存 阶乘 : 0.046 


需要 指出 的 是 ,缓存 是 有 状态 对 象 ， 基于 缓存 的 实现 方案 不 符合 纯 函 数 式 编程 要 求 。 理 想 的 
函数 式 编程 应 尽量 避免 状态 变化 , 例如 函数 式 编程 中 多 使 用 递归 取代 值 有 状态 的 变量 ,当前 状态 
由 函数 的 参数 定义 ,而 不 是 保存 在 值 可 变 的 变量 里 。 前 面 讲 过 运用 尾 递 归 优 化 技术 ， 即使 只 用 用 性 
能 有 限 的 处 理 器 和 内 存 ， 也 能 显著 提升 性 能 。 在 Python 中 ， 我 们 使 用 for 循环 手动 实现 尾 递归 
优化 。 缓 存 是 一 种 类 似 的 优化 技术 ， 如 有 需要 便于 动 实现 它 ， 但 它 本 身 不 是 纯 函 数 式 编程 。 


原则 上 调用 带 LRU 的 函数 有 两 个 结果 : 返回 本 次 计算 结果 ， 并 将 其 保存 到 缓存 池 中 供 后 续 
使 用 。 被 缓存 的 值 封装 在 带 装 饰 器 的 fibc () 函数 内 部 ， 无 法 查看 或 操作 。 


缓存 技术 不 是 灵丹妙药 , 涉及 大 量 实数 计算 的 应 用 中 ， 由 于 实数 的 近似 效应 , 缓存 的 效果 往 
主 不 好 , 往往 将 实数 的 最 小 有 效 数 字 视 作 随 机 噪声 ,导致 alz*u_cache 装饰 右 的 目标 查找 难以 正 
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第 16 章 将 介绍 解决 这 一 问题 的 方法 。 





10.3 使 用 total ordering 定义 类 


total_ordering 装饰 器 用 于 定义 实现 各 种 比较 运算 的 算 子 类 , 既 可 用 于 numbers .Number 
的 子 类 ， 也 可 用 于 半数 值 型 类 。 


下 面 以 扑克 牌 为 例 说 明 使 用 半数 值 型 类 的 场景 。 扑 克 牌 有 点 数 ,， 也 有 花色 ， 有 些 玩法 中 点 数 
起 的 作用 非常 大 。 与 数字 类 似 ， 扑 克 牌 可 以 排序 ， 点 数 也 可 以 相 加 。 但 牌 与 牌 之 间 做 乘法 毫 无 意 
义 ， 这 一 点 又 与 数字 不 同 。 


可 以 通过 继承 NamedTuple 类 定义 一 个 扑克 牌 类 ， 如 下 所 示 : 


from typing import NamedTuple 
class Cardl (NamedTuple): 
rank: int 














suit: str 
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该 定义 看 上 去 不 错 
2 和 梅花 2 时 会 出 现下 面 的 情况 : 
>>> c2s= Card1(2, '\u2660') 


>>> c2h= Card1(2, '\u2665') 
>>> C2S 


Cardl(rank=2, suit='®') 

>>> c2h= Cardl1l(2, '\u2665') 

>>> c2h 

Cardl(rank=2, suit='Y') 

>>> c2h == c2s 

False 

不 难 发 现 这 个 类 的 默认 比较 方式 不 适合 许多 玩法 。 








， 但 有 个 问题 : 所 有 实例 的 比较 都 必须 包含 点 数 和 花色 ,因此 当 比 较 黑 桃 


大 多 数 扑克 牌 玩法 都 只 需要 比较 点 数 ， 更 实用 的 定义 如 下 所 示 : 


from functools import total ordering 
from numbers import Number 
from typing import NamedTuple 


@total_ordering 
class Card2 (NamedTuple): 
rank: int 
suit: str 
def _ eq (self, other: Any) -> bool: 
if isinstance(other, Card2): 
return self.rank == other.rank 
elif isinstance(other, int): 
return self.rank == other 
return NotIimplemented 
_lt_ (self, other: Any) -> bool: 
if isinstance(other, Card2): 
return self.rank < other.rank 
elif isinstance(other, int): 
return self.rank < other 
return NotIimplemented 


def 


这 里 的 carg2 类 继承 了 NamedTuple 类 ， 使 用 
式 打 印 出 来 。 








父 类 的 























__() 方 法 将 实例 以 字符 串 的 形 


一 个 定义 顺序 。 其 他 比较 方法 由 @total_ordering 





() 等 ， 不 等 比较 方法 _- 0) 默 


虽然 


As 


然 写 成 Union [Carad2 ， 


二 





| 


类 中 定义 了 两 个 比较 方法 : 一 个 定义 相等 ， 
基于 这 两 个 定义 完成 , 包括 le _()、_gt (0) 和 ge 
认 基 于 () 生成 ， 装 饰 器 无 须 参 与 。 
以 上 方法 实现 了 两 种 比较 : 两 个 card2 对 象 之 间 , 以 及 card2 对 象 和 整形 数值 之 间 。 eq__() 
和 1t () 参 数 的 类 型 标示 必须 是 Any， 以 保证 与 父 类 兼容 ， 
更 精确 ， 人 类 冲突 。 
首先 这 个 类 提供 了 仅 基 于 点 数 的 比较 ， 如 下 所 示 : 
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>>> c2s= Card2(2, '\u2660') 
>>> c2h= Card2(2, '\u2665') 


>>> c2h == c2s 
True 

>>> c2h == 2 
True 

>>> 2 == c2h 
True 


这 个 类 可 用 于 扑克 牌 之 间 基 于 点 数 的 比较 ， 装 饰 器 自动 生成 了 多 种 比较 运算 符 ， 如 下 所 示 : 





>>> c2s= Card2(2, '\u2660') 
>>> c3h= Card2(3, '\u2665') 
>>> c4c= Card2(4, '\u2663') 
>>> c2s <= c3h < cdc 

True 

>>> c3h >= c3h 

True 

>>> c3h > c2s 

True 

>>> cdc != c2s 

True 








这 里 无 须 手动 编写 比较 运算 符 ， 装 饰 顺 会 自动 生成 ， 但 它 生 成 的 运算 符 并 不 是 完全 理想 的 。 














对 于 本 例 ， 如 果 要 比较 整数 和 carq2 对 象 ， 就 出 现 了 问题 。 





由 于 运算 符 解析 机 制 的 限制 ， 类 似 于 c4c > 3 和 3 < c4c 这 样 的 操作 会 出 现 TypeError 
异常 ， 这 是 total_ordering 无 法 正确 处 理 的 情形 。 虽 然 在 实际 应 用 中 这 样 的 情况 不 常见 ， 但 
当 确 实 需 要 这 样 的 比较 时 ， 所 有 的 比较 运算 符 都 要 手动 定义 ， 而 不 能 使 用 @total_ordering 装 





饰 锅 自动 生成 。 





面向 对 象 编程 并 不 是 函数 式 编程 的 对 立 面 , 很 多 时 候 二 者 是 互补 的 。Python 生成 不 可 变 对 象 















































的 能 力 恰 好 契合 了 函数 式 编 程 的 要 求 。 我 们 完全 可 以 既 避 免 创 建 带 有 复杂 状态 的 对 象 ,又 能 将 相 








关 方 法 封装 在 一 起 使 用 。 尤其 当 类 属性 中 包含 复杂 计算 时 , 将 复杂 计算 3 





的 逻辑 更 易 理 解 。 








时 装 在 类 定义 中 会 让 应 用 


有 时 需要 拓展 Python 已 有 的 数值 系统 ， 通 过 继承 numbers .Number 类 来 简化 函数 式 编程 。 
例如 可 以 把 复杂 的 算法 封装 在 Number 的 子 类 中 ， 以 简化 或 者 明晰 化 应 用 的 其 他 部 分 。 

Python 提供 了 丰富 的 数值 类 型 ， 内 置 的 int 类 型 和 float 类 型 覆盖 了 大 多 数 应 用 场景 。 使 
用 decimal .Decimal 包 能 很 好 地 处 理 货币 相关 问题 。 某 些 场景 中 ，fractions 








float 更 适用 。 
例如 处 理 地 理 数 据 ， 可 以 通过 继承 float 类 ， 引 入 新 的 





.Fraction 比 











属性 来 实现 经 度 或 者 红 


和 度 与 弧度 之 间 


的 转换 。 利 用 这 个 类 可 以 方便 地 处 理 跨 越 赤道 或 者 格林 威 治 子午 线 时 需要 进行 的 计算 ( mod(27) )。 
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由 于 Python 的 Number 类 是 不 可 变 的 ， 常 用 的 函数 设计 方法 都 可 以 在 这 里 使 用 ， 对 于 少 关 


自身 状态 会 变化 的 函数 ( 例如 _iagda__() 函数 )， 直 接 忽 略 即 可 。 





使 用 Number 的 子 类 时 ， 需 要 考虑 下 面 几 点 。 


口 相等 测试 与 哈 希 值 计算 。 哈 希 值 计算 的 核心 特点 可 参考 Python 标准 库 文档 9.1.2 节 。 

口 其 他 比较 运算 符 (通常 由 atotal_ordqering 装饰 需 定 义 )。 

口 算术 运算 符 : +、-、*、/ 人 、W/、% 和 六 ,包括 处 理 前 置 运算 符 的 特殊 方法 和 反 向 类 匹配 
的 附加 方法 。 对 于 表达 式 a-b，Python 尝试 在 a 的 类 型 中 寻找 实现 sub__() 方 法 的 
函数 ， 即 a._ sub” (pb) 方 法 。 如 果 左 侧 变量 (这 里 是 a ) 的 类 没有 这 个 方法 ,或 者 出 现 
NotImplemented 异常 , 再 检查 右 侧 变量 是 否 提供 了 pb. rsub (a) 方 法 。 当 pb 是 a 的 
子 类 时 为 特殊 情况 ， 人 允许 子 类 的 实现 方法 覆盖 左 侧 变量 的 实现 方法 。 

D 位 运算 算 子 : &、|、^、>>、<< 和 ~。 实 数 无 须 考 虑 这 些 运 算 符 ， 直 接 忽 略 即 可 。 

口 其 他 函数 如 *ounda() 、pow() 、daivmod() 等 由 专门 的 数值 处 理 方法 实现 ， 对 这 里 定义 的 

类 可 能 有 意义 。 


第 7 章 有 个 例子 详细 演示 了 创建 新 数值 类 型 的 过 程 ， 具 体 过 程 可 参考 https://www.packtpub. 




































































com/application-development/mastering-object-oriented-python。 


创建 

















前 面 讲 过， 函数 式 编程 和 面向 对 象 编程 是 互补 的 ， 完 全 可 以 按照 函数 式 编程 的 要 求 定义 类 。 
数值 类 型 的 例子 很 好 地 展示 了 如 何 利 用 Python 的 面向 对 象 特征 创建 易 读 的 函数 式 程序 。 




















10.4 ”使 用 partial() 函 数 应 用 部 分 参数 
partial() 拯 数 生 成 的 是 所 谓 的 “部 分 应 用 ”。 部 分 应 用 的 函数 是 基于 旧 也 数 及 其 部 分 参数 


生成 
其 理 


位 置 


























的 新 函数 ， 与 柯 里 化 密切 相关 。 由 于 Python 函数 不 是 通过 柯 里 化 实现 的 ， 因 此 这 里 不 介绍 
论 背 景 。 不 过 这 个 概念 有 助 于 我 们 理解 简化 。 


示例 如 下 : 


>>> exp2 = partial (pow, 2) 
>>> exp2 (12) 

4096 

>>> exp(17)-1 

131071 

















这 里 创建 了 函数 exp2 (y) ， 实 际 上 是 bow(2，y) 。partial() 国 数 将 pow () 函数 的 第 一 个 
参数 与 pow () 函数 绑 定 , 当 对 新 生成 的 exp2 () 函数 求 值 时 , 通过 partial () 绑 定 的 参数 和 





exp2 () 自己 的 参数 参与 了 求 值 。 


规则 





位 置 参数 的 绑 定 是 按照 从 左 到 右 的 严格 顺序 完成 的 。 如果 函 数 接收 关键 字 参 数 , 也 按 相同 的 
进行 。 
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部 分 应 用 函数 也 可 以 通过 匿名 函数 实现 ， 如 下 所 示 : 


exp2 = lambda y: pow(2, y) 
两 种 实现 的 效果 完全 一 致 。 性 能 测试 表明 partial () 函数 比 匿 名 函数 实现 的 方式 略 快 : 


口 bartial():0.37 
口 匿名 函数 : 0.42 


100 万 次 循环 运行 快 0.05 秒 ， 优 势 不 明 显 。 


由 于 匿名 函数 方式 能 实现 partial () 函数 的 所 有 功能 ， 暂 不 详 述 。 第 14 章 会 研究 如 何 通过 
柯 里 化 达到 相同 的 目的 。 











10.5 使 用 redquce () 函数 归 约 数据 集 


可 以 将 sum() 、len () 、max() 和 min() 国 数 看 作 reduce() 函数 的 特殊 形式 。reduce () 
函数 是 高 阶 函 数 ， 能 将 可 迭代 对 象 中 相 邻 的 两 个 值 通过 指定 函数 结合 在 一 起 。 


现 有 如 下 序列 对 象 : 




















(SIE 0 | 

reduce () 函数 对 它 应 用 + 运算 符 后 效果 如 下 : 

2+4+4+4+5+5+7+9 

为 了 更 好 地 说 明 计 算 过 程 ， 给 上 面 的 表达 式 加 上 括号 。 

CE 二 4) 于 机 5 二 5 和 二 9 

Python 对 表达 式 的 标准 解释 方式 是 从 左 到 右 求 值 ， 所 以 与 左 卷 积 (fold-left ) 是 同一 个 意思 。 
有 些 函数 式 语言 提供 了 右 卷 积 (fold-right ) 函数 ， 当 与 递归 组 合 使 用 时 ， 这 些 函 数 会 进行 优化 处 
理 。 不 过 在 Python 中 ， 归 约 都 是 从 左 到 右 进行 的 ， 所 以 不 存在 优化 问题 。 

可 以 给 归 约 提供 一 个 初始 值 ， 如 下 所 示 : 

reduce(lambda x, y: x +Yy ** 2, iterable, 0) 

如 果 不 提 供 ， 则 将 序列 的 第 一 个 值 用 作 初 始 值 。 设 置 初始 值 的 方式 对 于 map () 函数 和 
requce () 函数 都 非常 重要 。 下 面 通过 设置 初始 值 为 0 得 到 正确 的 计算 结 

A dt i i td Rh 


如 果 不 设置 初始 值 ，reduce () 函数 使 用 序列 的 第 一 个 值 作 为 初始 值 ， 这 个 值 就 不 会 传递 给 
卷 积 函 数 ， 导 致 计算 错误 。 没 有 初始 值 的 reduce () 函数 的 计算 过 程 如 下 所 示 : 
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PE ke 
这 样 的 错误 告诉 我 们 使 用 reduce () 函数 时 务必 人 小心 。 
下 面 通过 reduce () 高 阶 函 数 定义 一 些 内 置 的 归 约 函数 。 


sum2 = lambda data: reduce(lambda x, y: x +Yy ** 2, data, 0) 
sum = lambda data: reduce(lambda x, y: x + y, data, 0) 

count = lambda data: reduce(lambda x, y: x + 1, data, 0) 

min = lambda data: reduce(lambda x, y: x if x <Yy else y, data) 
max = lambda data: reduce(lambda x, y: x if x >Yy else y, data) 


其 中 sum2 () 归 约 函数 计算 序列 的 平方 和 , 在 求 样本 集 的 标准 差 时 很 有 用 。sum() 归 约 函数 模 
仿 内 置 的 sum() 函数 的 功能 。count () 归 约 函数 与 len() 函数 的 功能 类 似 ， 不 过 前 者 可 以 接收 可 
迭代 对 象 作为 参数 ， 而 后 者 只 能 处 理 实例 化 的 集合 对 象 。 
min () 函数 和 max () 函数 模仿 内 置 同 名 函数 的 功能 。 这 里 将 序列 第 一 个 值 作 为 初始 值 以 保证 
计算 结果 正确 。 如 果 对 reduce () 函数 指定 了 额外 的 初始 值 ， 则 会 由 于 提供 了 一 个 序列 中 不 存在 
的 值 而 得 到 错误 的 结 









































10.5.1 合并 map() 和 reduce() 


不 难 发 现 基于 一 些 简单 的 定义 就 可 以 创建 高 阶 函 数 。 下 面 介绍 如 何 组 合 map () 函数 和 
reduce () 函数 生成 map-reduce 函数 。 


from typing import Callable, Iterable, Any 
def map_reducel 
map_fun: Callable, 
reduce_fun: Callable, 
source: Iterable) -> Any: 
return reduce(reduce_ fun, map (map_fun, source)) 


这 个 由 map () 函数 和 reduce () 函数 组 成 的 函数 有 3 个 参数 :一 个 映射 操作 ,一 个 归 约 操作 ， 
以 及 一 个 待 处 理 的 数据 序列 。 

上 面 的 定义 非常 宽泛 , 很 难 从 中 看 出 对 数据 类 型 的 要 求 。 由 于 映射 和 归 约 可 能 是 非常 复杂 的 
操作 ， 下 面 更 严格 地 定义 map-reduce 函数 : 


from typing import Callable, Iterable, TypeVar 




















Ts TyDevar("™T ") 
def map_reducel 
map_fun: Callable[[T_], T_], 


educe. funis "CallabBblelllh.s Tel Hels 
source: Iterable[T_]) -> 7 : 
return reduce(reduce_ fun, map (map_fun, source)) 


该 定义 多 了 几 项 约束 。 首 先 ,可 迭代 对 象 需要 包含 类 型 一 致 的 数据 , 我 们 把 这 个 类 型 绑 定 为 
了 _ 类 型 变量 ; 然后 ，map () 函数 接收 类 型 为 下 _ 的 参数 ， 并 生成 相同 类 型 的 结果 ; 最 后 ， 归 约 函 
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数 接收 两 个 T_ 类 型 的 参数 ， 返 回 一 个 同类 型 的 参数 。 对 于 一 个 简单 的 数值 计算 应 用 来 说 ,使 用 
类 型 变量 7T_ 施 加 类 型 约束 效果 很 好 。 

更 多 时 候 需 要 更 严格 地 定义 映射 函数 ， 例 如 callable[[T1_] ，T2_] 就 体现 了 映射 函数 的 
核心 特点 : 输入 类 型 T1_ 和 输出 类 型 T2_ 可 能 是 不 同 的 。 归 约 函 数 则 需要 保证 输入 和 输出 函数 类 
型 一 致 : callable[[T2_，T2_],， 7T2_]。 


可 以 分 别提 供 映 射 函数 和 归 约 函数 来 得 到 计算 平方 和 的 归 约 定义 ， 如 下 所 示 : 


def sum2_mr (source: Iterablel[lfloat]) -> float: 
return map_reducel 
lambda y: y ** 2, lambda x, y: x + y, source) 


这 里 使 用 了 lambgda y: y ** 2 作为 平方 计算 的 映射 函数 ， 归 和约 部 分 使 用 lambda x, y: 
x + y 作为 参数 。 无 须 专门 指定 初始 值 ， 因 为 它 就 是 平方 函数 映射 后 序列 的 第 一 个 值 。 

上 面 的 参数 lambda x，y: x + y 相当 于 + 运算 符 ，Python 的 operator 模块 中 将 所 有 算 
术 运 算 符 定义 为 短 函 数 ， 下 面 用 它 简 化 上 面 的 map-reduce 定义 : 


from operator import add 
def sum2_mr2 (source: Iterablelfloat]) -> float: 
return map_reduce(lambda y: y ** 2, add, iterapble) 


这 里 使 用 了 operator.adg 方法 代替 匿名 函数 来 对 数据 进行 求 和 。 
计算 可 迭代 对 象 中 数值 的 个 数 如 下 所 示 : 


def count_mr (source: Iterable[float]) -> float: 
return map_reduce(lambda y: 1, lambda x, y: x+y, source) 


首先 通过 1ambda y: 1 将 每 个 元 素 映 射 为 1， 再 通过 匿名 函数 或 者 operator .add 做 归 约 
汇总 ， 就 得 到 了 元 素 的 个 数 。 

总 的 说 来 ， 可 以 使 用 reduce () 函数 创建 任何 类 型 的 归 约 ， 将 大 型 数据 集 转 换 为 单个 数值 。 
不 过 在 使 用 reduce () 函数 时 ， 需 要 注意 一 些 限制 。 

避免 像 下 面 这 样 使 用 reduce () 函数 ; 

zedquce (operator .adqdq，1List_of_strings，"") 

该 函数 能 运行 ，Python 可 以 把 ada 运算 符 应 用 于 字符 串 集合 ， 但 使 用 "" .join (list_of_ 
strings) 效 率 更 高 。 通 过 timit 测试 发 现 使 用 requce () 组 合 字 符 串 的 时 间 复 杂 度 是 O(n”)， 
日 非 常 慢 。 在 实际 应 用 中 ， 如果 不 仔细 研究 运算 符 处 理 复杂 数据 集 的 机 制 , 很 难 发 现 效 率 的 瓶颈 
在 哪里 。 
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10.5.2 ”使 用 reduce() 浸 数 和 partial() 吧 数 


可 以 将 sum() 函数 定义 为 partial (reduce，operator.add) ， 这 也 提示 我 们 可 以 用 类 似 
的 方法 创建 其 他 映射 和 归 约 。 可 以 通过 部 分 应 用 子 数 而 不 是 匿名 也 数 定义 党 用 的 归 约 丽 数 , 如 下 
所 示 : 


sum2 = partial (reduce, lambda x, y: x +Yy ** 2) 
count = partial (reduce, lambda x, y: x + 1) 




















现在 可 以 通过 sum2 (some_dqata) 或 者 count (some_iter) 来 使 用 这 些 函 数 了 。 前 面 讲 过 ， 
这 样 的 实现 方法 性 能 优势 不 明显 , 但 仍然 不 失 为 一 项 重要 的 技术 , 在 处 理 特别 复杂 计算 时 可 以 使 
用 部 分 应 用 函数 实现 简化 。 














10.5.3 ”使 用 map () 函数 和 reduce () 函数 清洗 数据 


清洗 数据 时 经 常 需 要 引入 复杂 度 不 同 的 过 滤器 来 剔除 无 效 数据 , 下 面 通过 定义 映射 将 有 效 但 
格式 不 规范 的 数据 ， 转 换 为 有 效 且 格式 规范 的 数据 。 


首先 定义 如 下 函数 : 


def comma_fix(data: str) -> float: 
让 下 
return float (data) 
except ValueError: 
return float (data.replace(",", "")) 








def clean sum( 
cleaner: Callable[[str], float], 
data: Iterable[lstr] 
) -> float: 
return reduce(operator.add, map (cleaner, data)) 


comma_fix() 函数 通过 去 掉 字 符 串 中 的 逗号 ， 将 格式 不 规范 的 表达 数字 的 字符 串 转 换 为 实 
数 ， 类 似 的 场景 还 有 去 掉 字 符 串 中 的 $ 符 写 并 转换 为 decimal .Decimal 类 型 数据 。 
然后 可 以 将 一 个 执行 清洗 操作 的 映射 函数 ( 这 里 是 comma_fix() 类 ) 应 用 于 数据 ， 再 用 
operator.add 方法 进行 归 约 。 
青 洗 过 程 如 下 所 示 : 
>>> d = ('1,196', '1,176', '1,269', '1,240', '1,307', 
11,435', '1,601', '1,654', '1,803', '1,734') 


>>> clean sum(comma fix, d) 
14415.0 


这 样 就 通过 人 


























hy 





NS 


正 逗 号 实现 了 清洗 数据 并 计算 总 和 ， 组 合 两 项 操作 的 语法 也 很 简单 。 
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请 注意 ， 应 避免 多 次 调用 清洗 函数 ， 比 如 计算 一 组 数据 的 平方 和 时 ， 不 应 执行 如 下 命令 : 

comma_fix_squared = lambda x: comma_ fix(x) ** 2 

由 于 计算 数据 的 标准 差 时 也 要 用 到 clean_sum(comma_fix，4d) 方 法 ， 就 执行 了 两 次 修正 
逗号 的 操作 ， 一 次 计算 数据 总 和 ， 一 次 计算 平方 科 ， 这 样 的 算法 设计 很 差 。 用 1ru_cache 装饰 
器 缓存 计算 结果 会 有 帮助 ， 更 好 的 方法 是 将 清洗 的 中 间 结 果实 例 化 到 临时 的 元 组 对 象 中 。 











10.5.4 使 用 groupby() 函数 和 reduce () 函数 


数据 分 析 中 经 常 需要 分 组 数据 并 总 结 分 组 情况 。 可 以 用 aefaultadict (1ist) 进行 分 组 ， 然 
后 展开 分 析 。 第 4 章 介绍 了 如 何 排序 和 分 组 ， 第 8 章 介绍 过 其 他 方法 。 


需要 处 理 的 数据 实例 如 下 所 示 : 











>>> data = [('4', 6.1), ('1', 4.0), ('2', 8.3), ('2', 6.5), 
人 4.6), ('2', 6.8), ('3', 9.3), ('2', 7.8), 
.. ('2 9.2), ('4', 5.6), ('3', 10.5), ('1', 5.8), 
+ ('4', 3.8), ('3', 8.1), ('3', 8.0), ('1', 6.9), 
('3 6.9), ('4 6.2), ('1', 5.4), ('4', 5.8)] 








原始 数据 序列 中 每 个 元 素 包 含 一 个 键 值 以 及 对 键 值 的 度量 。 
创建 分 组 的 一 个 常用 方法 是 将 键 值 相同 的 元 素 放 和 同一 个 列表 ， 如 下 所 示 : 


from collections import defaultdict 

from typing import ( 

Iterable, Callable, Dict, List, TypeVar, 
Iterator, Tuple, cast) 

TypeVar ("D_") 

TypeVar ("K_") 























D_ 
KR 
def partition ( 

source: Iterablel[D_], 


key: Callable[[D_], K_] = lambda x: cast (K_, x) 
) -> Iterable[Tuplel[lK_, Iterator[D_]]]: 
pa Diet[tk ,List[D]] = defatultdiet(1liest) 


for item in source: 
pd[lkey (item) ] .append (item) 
for k in sorted(pd): 
yield k, iter(pd[k]) 


上 述 代码 按照 键 值 将 可 迭代 对 象 中 的 数据 分 到 不 同 的 组 中 , 其 中 将 可 迭代 对 象 中 源 数 据 的 数 
据 类 型 定义 为 D_， 代 表 每 个 数据 项 。 用 key () 函数 从 数据 项 中 抽取 键 值 ， 将 返回 结果 的 类 型 定 
义 为 K_， 以 与 数据 项 的 类 型 D_ 做 区 分 。 从 示例 数据 可 以 看 出 ， 每 个 数据 项 是 一 个 元 组 〈 类 型 标 
识 符 为 tuple )， 每 个 键 值 是 一 个 字符 串 〈 类 型 标识 符 为 str )， 键 值 抽取 参数 作为 可 调用 函数 ， 
将 元 组 类 型 转换 为 字符 串 类 型 。 
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key () 函数 从 数据 项 中 抽取 的 字符 串 作 为 了 pda 字典 的 键 值 ， 将 数据 项 追加 到 了 对 应 的 列表 
中 。aqefaultdict 对 象 将 类 型 为 k_ 的 键 值 映射 到 了 类 型 为 List[D_] 的 数据 列表 上 。 


上 述 函 数 返回 结果 的 数据 结构 与 itertools .groupby () 函数 的 一 致 , 都 是 由 (group key， 
iterator) 元 组 组 成 的 可 迭代 序列 , 其 中 分 组 键 值 的 类 型 由 键 值 函数 的 返回 值 的 类 型 决定 , 迭代 
右 中 则 包含 一 系列 原始 数据 项 。 

基于 itertools.grouppby() 实 现 的 分 组 图 数 如 下 所 示 : 


from itertools import groupby 








def partition s( 
source: Iterable[D_], 
key: Callable[[D_], K_] = lambda x: cast (K_, x) 
) -> Iterable[Tuplel[lKk_, Iterator[D_ ]]]: 
return groupby (sorted(source, key=key), key) 


注意 : 上 述 两 种 实现 的 输入 部 分 有 个 重要 的 差别 : groupby () 函数 要 求 数 据 必 
0 须 是 按键 值 排序 好 的 ，defaultdict 则 不 需要 事先 排序 。 对 于 大 型 数据 集 ， 不 
论 从 时 间 上 还 是 存储 空间 上 排序 ， 成 本 都 会 非常 高 。 


接 下 来 使 用 上 面 定 义 的 函数 对 数据 进行 分 组 , 可 以 把 该 操作 作为 分 组 过 滤 的 预 处 理 或 分 组 统 
计 的 预 处 理 。 


>>> for key，group_iter in partition(data, key=lambda x:x[0]): 
. print (key, tuple(group_ iter)) 

1 (('1', 4.0), ('1', 4.6), ('1', 5.8), ('1', 6.9), ('1', 5.4)) 

2 (('2', 8.3), ('2', 6.5), ('2', 6.8), ('2', 7.8), ('2', 9.2)) 

3 CO 9 3 C3 LQ (V3 Bl) (S38 0) (369)) 

4 (('4', 6.1), ('4', 5.6), ('4', 3.8), ('4', 6.2), ('4', 5.8)) 


对 分 组 数据 的 统计 汇总 如 下 所 示 : 


mean = lambda seq: suml(seqg)/len(sedq) 
var = lambda mean, seq: sum( (x-mean)**2/mean for x in sed) 





Item = Tuple[K_, float] 
def summarizel 
key_iter: Tuple[Kk_, Iterable[Item]] 
) -> Tuple[lK_, float, float]: 
key, item iter = key_iter 
values = tuplel(v for k, Vv in item iter) 
m = mean(values) 
return key, m, var(m, values) 

















partition() 也 数 的 返回 结果 是 一 系列 (key，iterator) 二 元 组 ，summarize() 函数 接收 
这 类 二 元 组 , 从 输入 数据 项 中 抽取 键 值 和 数据 迭代 器 。 上 面 的 实现 将 数据 项 的 类 型 定义 为 Item,， 
包含 一 个 类 型 为 k_ 的 键 值 和 一 个 可 以 转换 为 浮 点 数 的 数值 ,为 了 从 item_iter 迭代 器 中 抽取 出 
数值 部 分 ， 使 用 生成 器 表达 式 得 到 一 个 仅 包含 值 的 元 组 。 





10.6 小结 173 





还 可 以 使 用 (sna，item_iter) 实 现 从 二 元 组 中 抽取 第 二 项 , 并 且 sng = lambda x: x[1]。 
snd 这 个 名 字 是 从 元 组 中 抽取 第 二 项 中 “第 二 ”( second ) 的 简写 。 











将 summarize() 函数 应 用 于 每 个 分 组 ， 如 下 所 示 : 


>>> Partitionl = partition(data, key=lambda x: x[0]) 
>>> groupsl1 = map(summarize, partition1l) 


或 者 使 用 另 一 个 实现 方案 ， 如 下 所 示 : 


>>> partition2 = partition s(data, key=lambda x: x[0]) 
>>> groups2 = map(summarize, partition2) 


两 种 方法 都 能 计算 出 每 个 分 组 的 统计 汇总 值 ， 计 算 结果 如 下 所 示 : 


1 5.34 0.93 
2 7.72 0.63 
3 8.56 0.89 
45.5 0.7 


这 里 算出 的 方差 可 用 于 卡 方 检验 , 用 于 确定 数据 集 的 零 假 设 是 否 成 立 。 零 假设 指数 据 不 包含 


有 价值 的 信息 : 方差 是 完全 随机 的 。 还 可 以 对 数据 做 组 间 比 较 , 确定 各 组 平均 值 的 变化 是 否 符合 
零 假设 ， 或 者 存在 某 种 统计 意义 上 的 显著 变化 。 



































10.6 ”小结 


本 章 介 绍 了 functools 库 中 的 几 个 函数 ， 利 用 它们 可 以 方便 地 创建 功能 强大 的 函数 和 类 。 


对 于 需要 重复 计算 同一 组 值 的 应 用 ，elru_cache 天 数 可 以 大 幅 提 升 其 性 能 。 对 于 用 
integer 或 string 作为 参数 的 函数 来 说 ， 该 装饰 器 非常 有 用 ， 它 可 以 通过 保存 已 有 的 计算 结 
果 来 缩短 后 续 处 理 时 间 。 





























etotal_ordering 装饰 器 有 助 于 实现 复杂 的 排序 比较 功能 ， 该 函数 似乎 不 属于 函数 式 编程 
的 重点 ,但 在 创建 新 类 型 数 时 非常 有 用 。 


partial () 函数 通过 传递 部 分 参数 创建 新 函数 , 使 用 匿名 函数 也 能 实现 类 似 的 效果 , 两 种 方 
法 可 以 互 换 。 






























































最 后 介绍 了 高 阶 函 数 reduce () ， 它 是 归 约 函数 (例如 sum() ) 的 一 般 化 。 后 面 章节 的 实例 
仍 会 用 到 这 个 函数 ， 它 与 filter () 和 map () 都 是 重要 的 高 阶 函 数 。 


下 一 章 将 介绍 如 何 通过 装饰 器 创建 高 阶 函 数 , 如 此 创建 的 高 阶 函 数 语法 更 简单 清晰 。 当 函数 
需要 与 其 他 许多 画 数 和 类 相互 调用 时 ， 装 饰 需 是 个 很 有 用 的 工具 。 
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Python 提供 了 许多 创建 高 阶 函数 的 方法 。 第 5 章 介绍 了 两 种 技术 : 定义 接收 函数 作为 参数 的 


函数 ， 以 及 定义 callable 的 子 类 ， 后 者 可 以 通过 函数 初始 化 或 作为 参数 被 函数 调用 。 





使 用 装饰 占 函 数 便于 创建 复合 函数 。 复合 函数 是 能 表征 多 个 源 函 数 功 能 的 单个 函数 。 对 于 一 











复杂 算法 ,复合 函数 fog(x) 比 KgG9) 更 清晰 明了 。 对 于 开发 者 来 说 ， 有 多 种 语法 备 选 方案 可 表 














二 








本 章 讨论 以 下 几 个 主题 


口 使 用 装饰 器 构建 基于 其 他 函 。 
口 functools 模块 中 的 wraps () 函数 ， 可 用 于 构建 装饰 器 ; 
D update_wrapper () 0 











11.1 “作为 高 阶 函数 的 装饰 器 














装饰 器 的 核心 思想 是 将 某 些 原始 函数 转换 成 男 一 种 形式 。 凌 饰 占 基 于 装饰 符 和 原始 被 装饰 函 





数 创建 复合 函数 。 











可 以 通过 以 下 两 种 方式 使 用 装饰 占 函 数 。 
以 前 级 形式 创建 一 个 与 基 活 数 同名 的 新 函数 ， 如 下 所 示 : 








@decorator 
def original_ function(): 
pass 


以 显 式 运算 的 形式 返回 一 个 新 函数 名 字 可 能 不 同 )。 


def original_ function(): 
pass 
original_function = decorator(original_function) 


以 上 是 针对 同一 操作 的 两 种 语法 。 前 级 表示 法 的 优点 是 简洁 明了 。 装饰 符 在 前 缀 位置 对 于 一 
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些 读者 来 说 更 易 读 。 后 级 表示 法 是 显 式 的 ， 量 略微 灵活 一 些 。 

尽管 前 级 表示 法 很 常用 , 但 有 时 会 使 用 后 缀 表示 法 ,因为 我 们 不 希望 生成 的 函数 取代 原来 的 
函数 。 我 们 更 希望 执行 以 下 命令 ， 以 同时 使 用 装饰 后 和 装饰 前 的 函数 。 

new_function = qecorator (original_function) 

这 将 由 原始 函数 构建 出 一 个 名 为 new_function () 的 新 函数 。Python 函数 是 头等 对 象 ， 因 
此 使 用 eqecorator 语法 时 ， 原 始 函 数 将 不 再 可 用 。 

装饰 器 是 能 接收 函数 作为 参数 并 且 返 回 函 数 的 函数 ,这 简单 描述 了 Python 语言 的 内 置 特性 ， 
但 问题 是 之 后 如 何 更 新 或 调整 函数 的 内 部 代码 结构 呢 ? 

答案 是 无 须 更 改 。 与 其 纠结 于 内 部 代码 , 不 如 简单 定义 一 个 封装 原始 函数 的 新 函数 。 这 样 介 
简化 参数 值 或 结果 的 处 理 ， 并 且 无 须 理会 原始 函数 的 核心 处 理 机 制 。 


定义 装饰 器 时 会 涉及 高 阶 函数 的 两 个 阶段 ， 如 下 所 示 。 


口 在 定义 阶段 ， 装 饰 髓 函数 将 封装 基 函 数 并 返回 封装 后 的 函数 。 作 为 构建 装饰 器 函数 的 一 
部 分 ， 在 装饰 过 程 中 会 处 理 一 些 一 次 性 求 值 ， 例 如 计算 比较 复杂 的 默认 值 。 

口 在 求 值 阶段 ， 封 装 函 数 会 (并 且 通 常 可 以 ) 对 基 函 数 进行 求 值 。 封 装 函 数 可 以 对 参数 值 
进行 预 处 理 ， 也 可 以 对 返回 值 进 行 后 处 理 〈 或 者 两 者 兼 有 )。 使 用 封装 函数 也 可 以 避免 调 
用 基 函 数 ， 例 如 在 管理 缓存 的 情况 下 ， 封 装 可 避免 调用 基 郴 数 产生 的 高 昂 开 销 。 


简单 的 装饰 需 如 下 所 示 : 


from functools import wraps 
from typing import Callable, Optional, Any, TypeVar, cast 









































EC 
































FuncType = Callable[...，Any] 
F = TypeVar('F', bound=FuncType) 


def nullable(function: F) -> F: 
@wraps (function) 
def null _ wrapper (arg: Optional [Any]) -> Optional[Any]: 
return None if arg is None else function(arg) 
return cast(F, null_wrapper) 


通常 使 用 functools .wraps () 函数 来 确保 被 装饰 的 函数 能 保留 原始 函数 的 属性 , 例如 复制 
name 和 aqoc__ 属 性 可 以 确保 生成 的 装饰 器 函数 具有 原始 函数 的 名 称 和 文档 字符 串 。 


生成 的 复合 函数 ， 即 装饰 器 定义 中 的 null_wrapper () 函数 ， 也 是 一 种 高 阶 函 数 。 它 以 表 
达 式 的 形式 结合 了 原始 函数 ， 即 可 调用 对 象 function() ， 并 保留 了 None 值 。 在 生成 的 
null_wrapper () 函数 中 ， 原 始 的 可 调用 对 象 function 不 再 作为 显 式 参 数 ， 而 是 能 从 nul1_ 
wrapper () 函数 定义 的 上 下 文中 获取 其 值 的 自由 变量 。 
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装饰 器 函数 的 返回 值 是 新 创建 的 函数 , 名称 与 原始 函数 相同 。 装饰 器 只 返回 函数 而 不 处 理 其 
中 的 数据 ， 这 一 点 很 重要 。 装 饰 器 使 用 的 是 元 编程 ， 即 可 以 创建 代码 的 代码 。 随 后 生成 的 
null_wrapper () 限 数 可 用 于 处 理 实际 数据 。 


请 注意 ， 类 型 提示 使 用 了 Typevar 的 特性 来 确保 运用 装饰 器 后 得 到 的 是 callable 类 型 的 
对 象 。 类 型 变量 F 的 类 型 与 原始 函数 绑 定 , 而 装饰 器 的 类 型 提示 声明 了 结果 函数 类 型 应 与 参数 函 
数 相同 。 通 用 的 装饰 需 适 用 于 各 类 函数 ， 因 此 需要 绑 定 一 个 类 型 变量 。 


可 以 运用 enullable 装饰 需 来 创建 复合 函数 ， 如 下 所 示 


@nullable 
def nlog(x: Optionall[float]) -> Optional[float]: 
return math.1log (x) 










































































这 会 创建 一 个 nlog () 函数 ， 它 是 内 置 math.1og () 函数 的 支持 空 值 的 版 本 。 整 个 装饰 过 程 
返回 了 一 个 调用 原始 nlog () 函数 的 null_wrapper () 函数 版 本 。 结 果 命名 为 了 nlog() ， 并 且 
具有 封装 后 的 函数 和 原始 被 封装 函数 的 复合 行为 。 

如 下 所 示 使 用 该 复合 nlog () 函数 : 

>>> some data = [10, 100, None, 50, 60] 

>>> scaled = map(nlog, some data) 


>>> list(scaled) 
[2.302585092994046, 4.605170185988092, None, 3.912023005428146, 4.0943445622221] 


我 们 对 一 个 数据 集 应 用 了 该 函数 。 输 入 None 值 而 输出 None,， 并 且 没 有 涉及 任何 异常 处 型 
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这 种 示例 并 不 适合 单元 测试 。 出 于 测试 的 目的 ， 应 对 数值 进行 会 入 。 为 此 , 还 需 
创建 一 个 支持 空 值 的 rounda() 函数 。 


使 用 装饰 咒 表 示 法 创建 一 个 支持 空 值 的 舍 人 函数 ， 如 下 所 示 : 


@nullable 
def nround4 (x: Optional[float]) -> Optionall[lfloat]: 
return round (x, 4) 





该 函数 使 用 和 封装 了 *ounad () 函数 的 部 分 功能 来 支持 空 值 。 


使 用 optional 类 型 定义 ,方便 了 模块 typing 描述 支持 空 值 的 函数 类 型 和 支持 空 值 的 结 
类 型 。 定 义 optional [float] 等 同 于 Union[None，float]， 即 None 对 象 和 fl1oat 对 象 皆 
可 使 用 。 

还 可 以 创建 支持 空 值 的 舍 人 函数 ， 如 下 所 示 : 


nround4 = nullable(lambda x: round(x, 4)) 
































请 注意 , 我 们 没有 在 函数 定义 前 使 用 装饰 器 ， 而 是 将 装饰 器 用 于 一 个 匿名 函数 ， 这 与 在 函数 
定义 前 添加 装饰 需 的 效果 相同 。 
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可 以 使 用 rouna4() 函数 为 nlog () 函数 创建 更 好 的 测试 用 例 ， 如 下 所 示 : 


>>> some data = [10, 100, None, 50, 60] 
>>> scaled = map(nlog, some data) 

>>> [nround4(v) for Vv in scaled] 
[2.3026, 4.6052, None, 3.912, 4.0943] 


这 里 的 结果 与 平台 无 关 ， 因 此 便于 文档 测试 。 
对 匿名 函数 使 用 类 型 提示 可 能 有 一 定 的 挑战 。 以 下 代码 说 明了 需要 为 此 做 些 什 么 。 


nround41: Callable[ [Optional[float]], Optional[float]] = ( 
nullable(lambda x: round (x, 4)) 


) 





变量 nround41 的 类 型 提示 是 一 个 带 有 [optional [float]] 人 参数 列表 的 callable 对 象 ， 
且 其 返回 值 类 型 是 optional [float]。 使 用 callable 类 型 提示 仅 适 用 于 位 置 参 数 ， 对 于 存在 
关键 字 参 数 及 其 他 复杂 情况 ， 请 参阅 http://mypy.readthedocs.io/en/latest/kinds_of types.html# 
extended-callable-types。 


装饰 器 enullable 假定 所 装饰 的 是 一 元 函数 ( unary )。 为 了 处 理 任意 参数 集合 ， 需 要 重新 
考虑 这 个 设计 ， 创 建 一 个 更 为 通用 的 支持 空 值 的 装饰 需 。 


第 14 章 将 介绍 处 理 None 值 问题 的 一 种 蔡 代 方法 。PyMonad 库 定义 了 一 个 Maybe 对 象 类 ， 
它 既 可 以 是 某 个 合适 的 值 ， 也 可 以 是 None 值 。 













































































使 用 functools 的 update_wrappezr() 函数 

















装饰 需 ewraps 利用 update_wrapper () 了 荫 数 来 保留 被 封装 函数 的 某 些 属性 ,通常 这 就 完成 
了 默认 情况 下 我 们 需要 的 一 切 。 该 函数 将 原始 函数 的 一 组 特定 属性 列表 复制 到 了 由 装饰 器 创建 的 





结果 函数 中 。 这 组 特定 的 属性 列表 是 什么 ? 它 由 一 个 全 局 模块 定义 。 


函数 update_wrapper() 依赖 一 个 模块 的 全 局 变量 来 决定 保留 哪些 属性 。 变 量 
WRAPPER_ASSIGNMENTS 定义 了 默认 被 复制 的 属性 。 这 组 默认 被 复制 的 属性 列表 是 : 






































(' module ', '_ name ', '_ gualname ', '_ doc ', '__annotations _') 
很 难 对 该 列表 做 有 意义 的 修改 。def 语句 的 内 部 不 允许 进行 简单 的 修改 或 变更 , 这 一 点 需要 


如 果 要 创建 callable 对 象 , 可 以 用 一 个 类 来 提供 作为 定义 的 一 部 分 的 一 些 附 加 属性 。 这 可 
能 导致 装饰 器 必须 将 这 些 附加 属性 从 原始 被 封装 的 callable 对 象 复制 到 正在 创建 的 封装 函数 中 。 
然而 ， 通 过 面向 对 象 的 类 设计 方法 来 进行 这 种 修改 ， 会 比 利 用 复杂 装饰 器 技术 简单 一 些 。 












































装饰 器 背后 的 一 条 通用 原则 是 可 以 从 装饰 咒 和 使 用 该 装饰 器 的 原始 本 数 中 构建 出 复合 函数 。 
其 思路 是 构建 一 个 通用 装饰 器 库 ， 提 供 对 常见 关注 点 的 实现 。 


我 们 通常 把 这 些 问题 称 为 横 切 关注 点 , 因为 它们 适用 于 多 种 函数 。 这些 是 我 们 希望 通过 装饰 
器 实现 的 一 次 性 设计 ， 然 后 将 它们 应 用 于 整个 应 用 程序 或 框架 中 相关 的 类 。 


以 装饰 需 函 数 定 义 为 中 心 的 关注 点 包括 以 下 内 容 : 


口 日 志 记 录 
口 审计 
口 安全 


口 处 理 不 完整 数据 


例如 , 1ogging 装饰 器 可 以 将 标准 化 消息 写 人 应 用 程序 的 日 志文 件 , 审计 装饰 器 可 以 写 和 人 
数据 库 更 新 的 相关 详细 信息 , 安全 装饰 器 可 以 检查 一 些 运 行 时 上 下 文 以 确保 登录 用 户 拥有 足够 的 
权限 。 


对 函数 支持 空 值 的 封装 便 是 横 切 关注 点 的 一 个 例子 。 其 中 ,我 们 希望 一 些 函 数 处 理 None 值 
后 返回 None 值 而 不 是 引发 异常 。 在 某 些 数据 不 完整 的 应 用 中 , 我 们 可 能 希望 以 简单 统一 的 方式 
处 理 行 数据 ， 而 不 必 编 写 会 分 散 注意 力 的 大 量 if 语句 来 处 理 缺 失 值 。 


























































































































11.3 复合 设计 
复合 函数 的 常用 数学 表示 法 如 下 所 示 : 
f° 8(%) = f(g8(%)) 
是 可 以 定义 一 个 结合 了 男 外 两 个 函数 0) 和 g(x) 的 新 函数 f。g(x) 。 
Python 中 复合 函数 的 多 行 定义 可 以 通过 以 下 代码 实现 : 
@f_deco 


def g(x): 
something 


生成 的 函数 本 质 上 等 同 于 f。g(x) .装饰 器 E_aeco () 必须 融 合 f£() 的 内 部 定义 与 给 定 的 g() 
来 定义 并 返回 复合 函数 。 

实现 细节 显示 了 实际 上 Python 提供 的 是 一 种 略 复杂 的 复合 。 封 装 器 的 结构 有 助 于 我 们 将 
Python 装饰 器 的 复合 理解 为 以 下 形式 : 








这 里 的 思想 























@° 8g(X)= Wg° 8°0,(x)= Og, (x)) 


应 用 于 茶 个 函数 g090 的 装饰 器 将 包含 一 个 封装 函数 w。 该 封装 器 包括 两 部 分 , 其 中 一 部 分 ou) 
用 作 被 封装 函数 g(x) 的 参数 ， 而 男 一 部 分 wjp(z) 作 为 被 封装 函数 返回 的 结果 。 





下 面 给 出 具体 示例 ，something_wrapper () 装饰 器 的 定义 如 下 所 示 : 
@wraps (argument_function) 
def something_ wrapper (*args, **kw): 

# The "before" part, w_Q, applied to *args or **kw 

result = argument_function(*args, **kw) 


# The "after" part, w_b, applied to the result 
return after_result 


这 里 显示 了 在 原始 函数 的 前 面 和 后 面 可 以 注入 额外 处 理 的 位 置 。 这 里 强调 了 复合 函数 的 抽象 


概念 与 Python 的 具体 实现 之 间 的 一 个 重要 区 别 : 装饰 右 既 可 以 创建 Kg09) 或 ex)), 也 可 以 创建 
形式 更 复杂 的 广 (e (f(x)))。 装 饰 器 语法 无 法 完全 描述 所 创建 的 复合 函数 的 类 型 。 








装饰 器 的 真正 价值 在 于 封装 函数 中 可 以 使 用 任何 Python 语句 。 装 饰 器 可 以 使 用 if 语句 或 
for 语句 将 函数 转换 为 条 件 结构 或 循环 结构 。 后 面 的 示例 会 利用 try 语句 对 不 良 数据 执行 标准 
恢复 操作 。 在 这 个 通用 框架 中 可 以 实现 很 多 便利 。 





许多 函数 式 编程 都 遵循 AgooD=fegCo9) 设 计 模 式 。 通 过 两 个 小 函数 来 定义 一 个 复合 函数 并 不 总 
是 有 用 的 。 在 某 些 情况 下 ， 分 离 这 两 个 函数 更 有 意义 ; 而 在 其 他 情况 下 ， 我们 可 能 想 创建 一 个 能 
汇总 处 理 的 复合 函数 。 




















创建 map () 、filter () 和 reduce() 等 常用 的 高 阶 函数 的 复合 函数 很 容易 。 由 于 这 些 函 数 
都 很 简单 ， 因 此 复合 函数 通常 很 容易 描述 ， 并 能 提高 程序 的 可 读 性 。 





例如 ， 应 用 程序 可 能 包含 map (f，map (g，x) ) 函数 ， 创 建 复合 函数 并 使 用 map (f_g，x) 
表达 式 来 描述 集合 的 复合 可 能 更 清楚 。 使 用 f_g = lambda x: f(g(x)) 往 往 有 助 于 将 一 个 复 
杂 应 用 解释 为 简单 函数 的 复合 。 





值得 注意 的 是 , 这 两 种 技术 在 性 能 上 相差 不 大 。 函 数 map ( ) 是 惰性 的 的 , 即 对 于 两 个 map () 
函数 来 说 ， 从 x 中 提取 一 项 ， 会 先 经 由 g() 函数 处 理 ， 然 后 由 f£() 函数 处 理 。 对 于 单个 map () 
函数 来 说 ， 从 x 中 提取 一 项 后 会 交 由 复合 函数 人 _g() 处理 。 


A 


第 14 章 将 介绍 这 个 问题 的 另 一 种 解决 方案 ， 即 通过 单独 的 柯 里 化 方法 创建 复合 函数 。 








预 处 理 不 良 数据 


在 一 些 EDA 应 用 中 ， 一 个 横 切 关注 点 是 如 何 处 理 缺 失 的 或 无 法 解析 的 数值 。 货 币值 常 混合 
有 float、int 和 Decimal 格式 的 数值 ， 我 们 希望 以 统一 的 方式 来 处 理 它们 。 
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在 其 他 情况 下 , 我 们 会 碰 到 不 适用 或 不 可 用 的 数据 值 ， 不 应 该 让 它们 干扰 主线 程 的 计算 。 允 























许 Not Applicable 值 在 不 引发 异常 的 前 提 下 传递 给 表达 式 ， 通 常会 比较 方便 。 下 面 重点 介绍 
三 个 针对 不 良 数据 的 转换 函数 : ba_int() 、ba_float() 和 ba_dqecimal ()。 我 们 会 在 内 置 转 


换 函 数 之 前 定义 添加 复合 函数 的 特性 。 


换 。 





简易 的 不 良 数据 装饰 妖 如 下 所 示 : 


import decimal 
from typing import Callable, Optional, Any, TypeVar, cast 


FuncType = Callablel[..., Any] 
F = TypeVar('F', bound=FuncType) 


def bad data(function: F) -> F: 
@wraps (function) 
def wrap_bad datal(text: str, *args: Any, **kw: Any) -> Any: 

GR 
return function(text, *args, **kw) 
except (ValueError, decimal.InvalidOperation): 
cleaned = text.replace(",", "") 
return function(cleaned, *args, **kw) 
return cast(F, wrap_bad_ data) 





该 函数 封装 了 一 个 转换 函数 ( function ), 以 便 在 第 一 次 转换 碰 到 不 良 数 据 时 尝试 第 二 次 转 
第 二 次 转换 将 在 删除 ,字符 后 进行 。 此 封装 器 将 *args 和 **kw 参数 传递 给 被 封装 的 函数 ， 








使 得 被 封装 的 函数 可 以 获得 额外 的 参数 。 


使 用 函数 cast () 向 mypy 工具 给 出 提示 


行 有 限 的 数据 清理 。 





将 类 型 变量 F 与 function 参数 的 原始 定义 绑 定 。 定 义 装饰 器 返回 相同 类 型 (F ) 的 函数 。 
封装 器 不 会 更 改 被 封装 函数 的 签名 。 

可 以 使 用 此 封装 器 创建 能 感知 不 良 数 据 的 函数 ， 如 下 所 示 : 

bd_int = bad_ data (int) 


bd_float = bad_ data (float) 
bd_decimal = bad _ data (Decimal) 


这 样 就 可 以 创建 出 一 组 函数 , 它们 既 可 以 转换 良好 数据 , 也 可 以 针对 特定 类 型 的 不 良 数据 进 



































对 于 某 些 可 调用 对 象 ， 很 难 写 出 它们 的 类 型 提示 。 尤 其 是 int () 函数 具有 可 选 关键 字 








所 以 其 类 型 提示 会 比较 复杂 。 有 关 为 可 调用 对 象 创 建 复 杂 类 型 签名 的 指南 ， 请 参阅 
phttp:/mypy.readthedocs.io/en/latestkinds_ of types.html?highlight=keyword#extended-callable-types。 





使 用 ba_int () 函数 的 示例 如 下 : 


>>> bqd_ int("13") 
13 
>>> bqd_int("1,371") 





1371 

>>> bd _ int("1,371", base=16) 

4977 

上 面 运 用 了 ba_int () 函数 对 字符 串 进行 了 简易 转换 ， 它 也 能 接收 含 特定 标点 符号 的 字符 
串 。 此 外 每 个 转换 函数 可 接收 额外 的 参数 。 


有 时 需要 一 个 更 为 灵活 的 装饰 器 ， 或 者 添加 一 些 特性 ， 例 如 处 理 各 种 数据 清洗 方案 的 功能 。 
简单 删除 并 不 总 是 理想 的 。 有 时 还 要 删除 $ 或 符号 。 稍 后 将 介绍 更 复杂 的 参数 化 装饰 器 。 





























11.4 向 装饰 器 添加 参数 


一 个 常见 的 需求 是 使 用 额外 的 参数 去 自 定义 一 个 装饰 器 。 我 们 可 以 做 一 些 更 复杂 的 处 理 ， 而 
不 只 是 简单 地 创建 一 个 复合 函数 fog(x)。 使 用 参数 化 装饰 器 可 以 创建 (tc)og)(x)。 前 面 已 经 使 用 了 
参数 c 作为 创建 封闭 如 Kc) 的 一 部 分 。 这 个 参数 化 的 复合 函数 Rc)og 之 后 便 可 以 和 实际 数据 x 一 
同 使 用 了 。 


在 Python 中 ， 可 以 编写 如 下 代码 : 


edeco (arg) 
def func (x): 
something 


这 里 包含 两 个 步 又。 首先 是 将 参数 应 用 于 抽象 装饰 器 以 创建 具体 的 装饰 咒 , 然后 将 该 具体 的 
装饰 器 ， 即 参数 化 的 函数 deco (arg) ， 应 用 于 基 函 数 定义 中 来 创建 装饰 器 函 数 。 


该 装饰 锅 函 数 的 效果 如 下 所 示 : 


def func (x): 

return something (x) 
concrete_deco = decol(arg) 
func= concrete_decol(func) 


实际 上 做 了 以 下 三 件 事 : 


(1) 定义 一 个 函数 func () ; 

(2) 对 参数 arg 应 用 抽象 装饰 器 deco () 来 创建 一 个 具体 装饰 器 concrete_deco () ; 

(3) 对 基 函 数 应 用 该 具体 装饰 器 concrete_dqeco() 来 创建 函数 的 装饰 器 版 本 ， 实 际 上 就 是 
deco(larg) (func) 。 

带 参数 的 装饰 器 包含 了 对 最 终 函 数 的 间接 构造 。 这 似乎 已 经 超越 了 单纯 的 高 阶 函 数 , 进入 了 
更 为 抽象 的 领域 ， 即 创建 高 阶 函数 的 高 阶 函 数 。 


可 以 扩展 能 感知 不 良 数据 的 装饰 顺 来 创建 一 个 更 灵活 的 转换 器 。 下 面 定义 一 个 epaa_char_ 
remove 装饰 器 ， 它 以 待 删除 字符 为 参数 。 这 个 参数 化 的 装饰 器 如 下 : 
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import decimal 
def bad_char_removel 
*char_list: str 
) > Callablell[lEl,. Fl]: 
def cr_decorator (function: F) -> F: 
@wraps (function) 
def wrap_char_remove (text: str, *args, **kw): 
ys 
return function(text, *args, **kw) 
except (ValueError, decimal.InvalidOperation): 
cleaned = clean list(text, char_list) 
return function(cleaned, *args, **kw) 
return cast(F, wrap_char_remove) 
return cr_decorator 


一 个 参数 化 的 装饰 器 具有 两 个 内 部 函数 定义 。 


口 抽象 装饰 器 :cr_decorator 函数 会 将 其 绑 定 的 自由 变量 char_list 变 成 具体 的 装饰 器 。 
随后 返回 该 装饰 器 将 其 应 用 于 函数 , 这 将 返回 一 个 封装 在 wrap_char_remove 函数 内 的 
函数 。 这 里 作为 类 型 提示 的 类 型 变量 F 声明 了 封装 操作 将 保留 被 封装 函数 的 类 型 。 

口 被 装饰 的 封装 器 : wrap_char_remove 铺 数 会 用 封装 版 本 蔡 代 原始 函数 。 由 于 使 用 了 
@wraps 装饰 器 ， 因 此 被 封装 的 基 函 数 的 名 字 将 蔡 代 新 函数 的 _name “属性 (以 及 其 他 

属性 )。 














整个 装饰 器 baq_char_remove () 函数 的 任务 是 将 参数 绑 定 到 抽象 装饰 器 并 返回 具体 装饰 
器 。 类 型 提示 阐明 了 返回 值 是 一 个 能 将 callable 函数 转换 为 男 一 个 callable 函数 的 
Callable 对 象 。 之 后 根据 语言 规则 ， 会 将 具体 装饰 句 应 用 于 之 后 的 函数 定义 。 


下 面 的 clean_list () 函数 用 于 删除 在 给 定 列表 中 的 所 有 字符 。 


from typing import Tuple 
def clean list(text: str, char_list: Tuplel[lstr, ...]) -> str: 
if char_list: 
return clean listl( 
text.replace (char_list[0], ""), char_list[1:] 
return text 


其 中 的 规则 十 分 简单 ， 因 此 使 用 了 递归 方法 ， 也 可 以 把 它 优 化 成 一 个 循环 。 
可 以 使 用 @baqd_char_remove 装饰 器 创建 转换 函数 ， 如 下 所 示 :: 


Gbad_char remove("S"， ",") 
def currency (text: str, **kw) -> Decimal: 
return Decimal (text, **kw) 









































上 面 使 用 了 装饰 器 来 封装 currency () 函数 。 函 数 currency () 的 本 质 特征 是 对 decimal. 
Decimal 构造 器 的 引用 。 


这 个 currency( 函数 可 以 处 理 不 同 的 数据 格式 了 。 











>>> currency("13") 
Decimal('13') 

>>> currency ("$3.14") 
Decimal('3.14"' 
>>> currency("$1,701.00") 
Decimal('1701.00') 


接 下 来 可 以 使 用 一 个 相对 简单 的 map (currency，row) 方 法 处 理 输入 数据 ， 


— 


以 便 将 源 数据 


从 字符 串 转 换 为 可 用 的 Decimal 值 了 。 错 误 处 理 语 句 try : /except :已 经 隔离 到 了 一 个 用 于 构 


建 复合 转换 函数 的 函数 中 。 


可 以 使 用 类 似 的 设计 来 创建 可 以 容错 空 值 的 函数 。 这 些 函 数 将 使 用 类 似 的 try : /except: 


般 ， 但 只 简单 地 返回 None 值 。 


11.5 ”实现 更 复杂 的 装饰 器 
在 Python 中 ， 可 以 使 用 如 下 命令 创建 更 复杂 的 函数 : 


@f_wrap 

@g_wrap 

def n(x): 
something 


在 Python 中 , 可 以 任意 堆 县 装饰 器 来 修改 其 他 装饰 器 返回 的 结果 , 其 含义 有 





点 类 似 于 fogo 


h(x)。 最 终 得 到 的 函数 名 称 仍然 是 h(x)。 由 于 存在 这 种 潜在 的 混淆 ， 因 此 在 创建 包含 深度 
饰 絮 的 函数 时 要 格外 小 心 。 如果 仅 为 处 理 一 些 横 切 关注 点 , 那么 应 该 把 每 个 装饰 器 都 设计 成 能 


理 单独 问题 ， 而 且 不 会 造成 太 多 混乱 。 
另外 ， 如 果 使 用 装饰 顺 来 创建 复合 函数 ,那么 最 好 使 用 以 下 几 类 定义 : 


from typing import Callable 








ma"CaLlablelLlfloatls float,l = .Eanbda XY X=-1 
pa Callabletltlkoatl; floatl =s. lanmbda Vs 2**y 
mersenne: Callable[l[float], float] = lambda x: ml (p2 (x)) 


这 里 每 个 变量 都 有 个 类 型 提示 用 于 定义 关联 明 数 。 ml、p2 和 mersenne 这 3 个 函数 都 具 
有 callapble[[float]，float] 类 型 提示 ， 表 明 该 函数 将 接收 一 个 可 以 被 强制 转换 为 浮 点 数 并 











返回 数字 的 数字 。 使 用 类 似 于 F_float = callable[[float]，float] 的 类 
类 型 定义 上 过 分 简单 的 重复 。 





如 果 函 数 规模 比 简单 表达 式 大 ， 强 烈 建议 使 用 aef 语句 ， 这 里 使 用 匿名 函数 对 象 是 比较 罕 





见 的 情况 。 
尽管 装饰 需 可 以 实现 很 多 事情 , 但 需 楚 使 用 装饰 需 是 否 能 编写 出 清晰 、 



































型 定义 可 以 避免 





简洁 且 易 读 的 
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代码 。 在 处 理 横 切 关注 点 时 ， 装 饰 器 特性 通常 与 被 装饰 函数 存在 本 质 区 别 ， 它 极 大 地 简化 了 被 封 
装 的 函数 。 通 过 装饰 需 添 加 日 志 记录 、 调 试 或 安全 检查 是 常见 的 做 法 。 

然而 对 于 过 于 复杂 的 装饰 需 设 计 , 一 个 严重 的 后 果 是 难以 提供 适当 的 类 型 提示 。 当 类 型 提示 
退化 为 只 能 使 用 callable 和 any 时 ,这样 的 设计 可 能 会 变 得 星 涩 难 懂 。 
































11.6 ”复杂 设计 注意 事项 


在 数据 清洗 的 案例 中 , 简单 地 删除 杂 散 字符 可 能 还 不 够 。 当 人 处 理 地 理 位 置 数据 时 ,我 们 会 碰 
到 各 种 输入 格式 ， 包 括 简单 的 度数 ( 37 .549016197 )、 度 数 和 分 数 (37。 32 .94097') 以 及 度 - 
分 - 秒 (37。 32' 56.46”)。 当 然 ， 可 能 还 有 更 微妙 的 清洗 问题 ， 比 如 一 些 设备 会 用 Unicode 编 
码 为 U+00BA 的 字符 O 而 不 是 编码 为 U+00B0 且 与 之 形似 的 度数 字符 。 作 为 输出 。 


因此 , 通常 需要 提供 与 转换 函数 绑 定 的 单独 清洗 函数 。 该 函数 会 对 在 格式 上 与 经 纬度 格式 相 
差 较 大 的 输入 数据 进行 更 复杂 的 转换 处 理 。 
那么 该 如 何 实现 呢 ? 对 此 有 多 种 选择 ， 例 如 简单 的 高 阶 函 数 ， 然 而 装饰 器 的 效果 却 不 太 好 。 
下 面 展 示 一 个 基于 装饰 器 的 设计 ， 来 说 明 装 饰 器 的 局 限 性 。 
这 里 要 求 有 两 个 正 交 设计 的 考量 ， 如 下 所 示 : 
口 输出 转换 ( int 、float 和 Decimal ); 
口 输入 清洗 ( 清除 杂 散 字符 ， 重 新 格式 化 坐标 )。 
理想 情况 下 ， 其 中 一 个 可 以 是 被 封装 的 基本 困 数 ， 另 一 个 则 以 封装 器 的 形式 被 引入 。 很 难说 


清楚 该 选择 哪个 作为 基本 函数 ,哪个 作为 封装 器 , 原因 之 一 是 上 述 示例 比 单一 的 两 层 复合 要 复杂 
一 些 。 




































































考虑 到 上 述 示例 ， 似 乎 应 该 将 其 看 作 一 个 三 层 复合 函数 : 


口 输出 转换 ( int 、float 和 Decimal ); 
口 输入 清洗 一 一 简单 蔡 换 或 更 复杂 的 多 字符 替换 ; 
口 孔 数 首先 尝试 转换 ， 并 执行 清洗 来 应 对 异常 ， 然 后 再 次 尝试 转换 。 

这 里 执行 尝试 转换 与 重 试 的 第 三 部 分 , 才 是 真正 意义 上 的 封装 器 ,同时 也 是 复合 函数 的 一 部 
分 。 正 如 之 前 提 到 的 ， 一 个 封装 器 包含 了 一 个 参数 阶段 和 一 个 可 以 返回 值 的 值 ， 分 别称 为 w(x) 
和 WAX)o 

下 面 用 此 封装 器 基于 两 个 额外 函数 创建 一 个 复合 函数 。 设 计 上 有 两 种 选择 , 一 种 是 将 清洗 函 
数 作 为 转换 装饰 器 的 参数 ， 如 下 所 示 : 
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@cleanse_ before(cleanser) 
def conversion (text): 
something 


这 种 设计 声明 了 转换 函数 是 其 核心 ， 而 清洗 函数 作为 辅助 细节 实现 , 它 会 修改 程序 行为 , 但 
会 保留 转换 函数 的 原始 意图 。 


也 可 以 将 转换 函数 作为 清洗 函数 装饰 器 的 一 个 参数 ， 如 下 所 示 : 


@then_convert (converter) 
def cleanse (text): 
something 


第 二 种 设计 表明 了 清洗 函数 是 其 核心 ， 而 转换 函数 作为 辅助 细节 实现 。 这 有 点 令 人 困惑 ， 
因为 清洗 函数 的 类 型 通常 是 callable[ [str]，str] ， 而 转换 函数 的 类 型 callable[ [str]， 
some other type] 是 整个 被 封装 函数 所 需 的 类 型 。 

尽管 这 两 种 方法 都 可 以 创建 出 可 用 的 复合 函数 ， 但 第 一 种 方法 有 个 重要 的 优势 ， 即 
conversion() 函数 的 类 型 签名 同时 也 是 生成 的 复合 函数 的 类 型 签名 。 这 凸显 了 装饰 需 的 一 个 通 
用 设计 模式 ， 即 被 装饰 的 函数 其 类 型 最 容易 保留 。 


















































6 当面 临 定义 复合 函数 的 不 同 选择 时 ,保留 被 装饰 函数 的 类 型 提示 是 很 重要 的 
一 点 。 


因此 ， 我 们 首选 ecleanse_before (cleaner) 风 格 的 装饰 器 。 该 装饰 器 形式 如 下 : 


def cleanse_before ( 
cleanse_function: Callable 
) =>: Gal Lable[l [Fl; FF]: 
def abstract_decorator (converter: F) -> FF: 
@wraps (converter) 
def cc_ wrapper (text: str, *args, **kw) -> Any: 
by 
return converter (text, *args, **kw) 
except (ValueError, decimal.InvalidOperation): 
cleaned = cleanse_function(text) 
return converter (cleaned, *args, **kw) 
return cast(F, cc_wrapper) 
return abstract_decorator 


上 面 定 义 了 一 个 三 层 装 饰 器 ， 其 核心 是 使 用 了 converter () 函数 的 cc_wrapper () 函数 。 
如 果 该 操作 失败 , 那么 它 会 使 用 给 定 的 cleanse_function () 函数 并 再 次 尝试 使 用 converter () 
函数 .具体 的 装饰 回 函 数 abstract_dqecorator () 在 cleanse_function() 困 数 和 converter () 
函数 之 外 构建 了 一 个 cc_wrapper () 函数 。 该 具体 装饰 需 以 cleanse_function () 函数 作为 自 
由 变量 ， 并 由 装饰 器 接口 cleanse_before () 创 建 ， 后 者 由 cleanse_function() 函数 定制 。 


其 中 的 类 型 提示 强调 了 ecleanse_pefore 装饰 需 的 作用 。 它 会 接收 某 个 callapble 函数 ， 
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即 这 里 的 cleanse_function， 并 创建 一 个 函数 callable[[F] ，F] ， 该 函数 会 把 一 个 


换 为 一 个 被 封装 的 函数 。 此 过 程 有 助 于 我 们 理解 参数 化 装饰 器 的 工作 机 制 


接 下 来 构建 一 个 稍 灵活 的 清洗 和 转换 函数 to_int () ， 如 下 所 示 : 


def drop_punct2 (text: str) -> str: 
return text.replace(",", "").replace("$", "") 





oO 


@cleanse_before(drop_punct) 
def to_int (text: str, base: int = 10) -> int: 
return int (text, base) 











清洗 函数 装饰 了 整数 转换 函数 。 本 例 中 , 清洗 函数 删除 了 $ 和 ,字符 。 该 清理 函数 封装 了 整数 


转换 函数 。 


上 面 定义 的 to_int () 函数 利用 了 内 置 的 int () 函数 ,为 了 避免 使 用 def 语句 ,可 如 下 定义 : 





to_int2 = cleanse_ before(drop_punct) (int) 














这 里 使 用 了 drop_punct () 函数 封装 内 置 的 int ( 借助 mypy 工具 中 的 reveal_type() 














函数 ， 可 以 看 到 to_int () 函数 的 类 型 签名 与 内 置 int () 函数 的 类 型 签名 是 相 匹 配 的 。 
如 下 所 示 使 用 改进 后 的 整数 转换 函数 : 


>>> to_int("1,701") 
1701 

>>> to_int("97") 

97 


对 于 被 装饰 的 函数 to_int () 来 说 ， 底 层 int () 函数 的 类 型 提示 已 经 重 写 ( 和 简化 ) 了 。 





就 是 试图 使 用 装饰 顺 封装 内 置 函 数 的 一 个 结果 。 


复杂 的 参数 化 装饰 器 让 设计 如 履 薄 冰 。 装饰 右 模型 似乎 不 太 适合 这 种 设计 , 而 复合 函数 的 定 


义 似乎 比 构建 装饰 器 所 需 的 机 制 更 清晰 。 





通常 , 当 我 们 想 在 给 定 函数 (或 者 类 ) 中 加 入 一 些 相 对 简单 和 固定 的 内 容 时 , 装饰 器 很 适用 。 
当 这 些 额 外 的 内 容 对 于 应 用 程序 代码 的 含义 不 重要 ,而 被 视 作 基础 结构 或 作为 支撑 时 , 装饰 器 也 




















是 很 重要 的 。 


当 涉 及 多 个 正 交 设计 方面 时 , 我 们 可 能 希望 得 到 一 个 可 调用 的 类 定义 , 它 具 有 各 种 插件 的 策 








略 对 象 。 这 个 类 的 定义 可 能 比 功能 相同 的 装饰 器 更 简单 。 替 代 装 饰 器 的 另 一 个 方法 是 创建 高 
数 。 在 某 些 情况 下 ， 具 有 各 种 参数 组 合 的 侦 函 数 会 比 装饰 器 更 简单 。 








横 切 关注 点 的 典型 示例 包括 日 志 记 录 和 安全 测试 。 可 以 将 这 些 特性 看 作 不 特定 于 某 个 问题 





域 的 后 台 处 理 。 当 我 们 能 自如 地 使 用 装饰 咒 时 ， 它 才能 算是 好 用 的 设计 技术 。 





阶 范 
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11.7 小结 

本 章 介绍 了 两 种 装饰 需 : 不 带 参数 的 装饰 需 和 参数 化 的 装饰 器 , 还 介绍 了 装饰 器 是 如 何 参与 
函数 之 间 的 间接 复合 的 ， 即 装饰 器 用 一 个 函数 (定义 在 装饰 器 内 部 ) 封装 另 一 个 函数 。 
使 用 functools .wraps () 装饰 器 可 以 确保 装饰 器 能 正确 复制 被 封装 函数 的 属性 , 这 一 点 应 
该 作为 编写 装饰 器 的 一 个 考量 。 

下 一 章 将 介绍 多 进程 技术 和 多 线程 技术 , 这 些 包 在 函数 式 编程 环境 中 特别 有 用 。 当 我 们 消除 
复杂 的 共享 状态 并 围绕 非 严格 运算 展开 设计 时 ， 便 可 以 利用 并 行 性 来 提高 性 能 了 。 























multiprocessing 和 
threading/ 模 块 











当 消 除了 复杂 的 共享 状态 并 围绕 非 严 格 执行 处 理 展开 设计 时 , 便 可 以 利用 并 行 性 来 提高 性 
能 了 。 本 章 将 介绍 多 进程 技术 和 多 线程 技术 。 对 于 允许 惰性 求 值 的 算法 ,Python 的 库 包 会 特别 
有 用 。 


其 中 心思 想 是 在 一 个 或 多 个 进程 内 的 多 个 线程 之 间 分 配 一 个 函数 式 程序 。 如 果 已 经 有 了 合理 
的 函数 式 设 计 , 那么 就 可 以 避免 应 用 程序 组 件 之 间 的 复杂 交互 , 因为 可 以 通过 函数 接收 参数 值 并 
生成 结果 。 这 是 进程 或 线程 的 一 个 理想 结构 。 


本 章 将 讨论 以 下 几 个 主题 。 


口 函数 式 编程 和 并 发 的 总 体 思想 。 
口 当 考 虑 计算 核心 、CPU 和 操作 系统 级 的 并 行 时 ， 并 发 实际 意味 着 什么 ”需要 注意 的 是 ， 
并 发 并 不 会 神奇 地 加 速 糟糕 的 算法 。 
口 使 用 内 置 的 multiprocessing 模块 和 concurrent .futures 模块 .这些 模 块 支持 多 种 
并 行 执行 技术 。qask 包 也 可 以 完成 很 多 类 似 的 工作 。 


本 章 将 重点 讨论 进程 级 的 并 行 性 而 非 线程 级 的 。 利 用 进程 级 的 并 行 性 让 我 们 可 以 完全 忽略 
Python 的 全 局 解释 器 锁 (global interpreter lock，GIL )。 有 关 Python GIL 的 更 多 信息 ， 请 参阅 
https://docs.python.org/3.3/c-api/init.html#thread-state-and-the-global-interpreter-lock。 







































































12.1 闻 数 式 编程 和 并 发 
当 执 行 任务 之 间 没 有 任何 依赖 关系 时 并 发 处 理 最 为 高 效 。 并 发 (或 并 行 ) 编程 开发 的 最 大 难 
点 在 于 协调 对 共享 资源 的 更 新 。 


在 遵循 函数 式 设计 模式 的 前 提 下 , 我 们 往往 避免 设计 状态 化 的 程序 。 函 数 式 设计 应 当 尽 量 减 
少 或 消除 对 共享 对 象 的 并 发 更 新 。 如 果 可 以 设计 出 以 惰性 求 值 和 非 严 格 求 值 为 核心 的 软件 , 那么 




















12.2 并 发 的 意义 189 





同样 可 以 设计 出 并 发 求 值 的 软件 。 这 样 便 能 实现 高 度 并 行 的 设计 "， 其 中 大 多 数 工作 都 可 以 并 发 
完成 ， 而 计算 之 间 的 交互 则 很 少 或 根本 没有 。 

编程 的 核心 是 运算 之 间 的 相互 依赖 。 在 表达 式 2* (3+a) 中 , 必须 先 计 算 子 表达 式 (3+a) 。 表 
达 式 的 最 终 值 取决 于 两 个 运算 的 先后 顺序 。 


在 处 理 集合 对 象 时 , 经 常会 遇 到 这 样 的 情况 : 集合 中 各 项 的 处 理 顺 序 无 关 紧 要 。 考 虑 以 下 两 
个 例子 : 


> 












































list(func(item) for item in y) 
list(reversed([func(item) for item in y[::-1]])) 


下 























即使 这 两 个 命令 对 表达 式 func (item) 的 求 值 顺序 是 相反 的 ,结果 仍 是 相同 的 。 这 只 有 在 每 
一 次 func (item) 的 求 值 都 是 独立 的 上 且 没 有 副作用 的 情况 下 才 可 行 。 


下 面 的 命令 片段 效果 也 相同 : 


import random 
indices = list(range(lenl(y))) 
random.shuffle(indices) 
X = [None]l*len(y) 
for k in indices: 
x[k] = func(y[k]) 


上 述 示例 中 的 求 值 顺 序 是 随机 的 。 由 于 对 func (y [k] ) 的 每 一 次 求 值 都 是 相对 独立 的 , 因此 
求 值 顺序 并 不 重要 。 许 多 算法 都 允许 这 种 非 严 格 求 值 。 





















































12.2 ”并 发 的 意义 


在 只 有 单个 处 理 器 和 一 个 计算 核心 的 小 型 计算 机 中 , 处 理 器 这 个 唯一 的 核心 将 所 有 计算 串 行 
化 了 。 整 个 操作 系统 会 通过 巧妙 的 时 间 片 分 配 交 错 出 多 个 进程 和 多 个 线程 的 效果 。 


在 多 CPU 或 单 CPU 多 计算 核心 的 计算 机 上 ， 可 以 对 CPU 指令 进行 一 些 实际 的 并 发 处 理 。 
其 他 所 有 类 型 的 并 发 都 是 在 操作 系统 层 通过 时 间 片 模拟 出 来 的 。 一 台 macOS X 笔记 本 电脑 可 以 
有 200 个 并 发 进程 共享 CPU, 这 里 的 进程 数 比 可 用 的 计算 核心 个 数 多 得 多 。 可 见 总 体 而 言 操 作 系 
统 通过 时 间 片 负责 绝 大 部 分 比较 显 见 的 系统 并 发 行为 。 





















































12.2.1 边界 条 件 


设想 有 一 个 算法 , 其 算法 复杂 度 为 O(n”)。 假设 它 有 一 个 包含 1000 字 节 Python 代码 的 内 循 
环 ， 那 么 在 处 理 10 000 个 这 样 的 对 象 时 ,需要 执行 1000 亿 次 Python 运算 。 我 们 称 其 为 基本 处 





中 也 称 “ 天 然 并 行 ”"。 一 一 译 者 注 
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理 预 算 。 只 要 我 们 党 得 会 有 所 帮助 ， 那 么 就 可 以 分 配 尽 可 能 多 的 进程 和 线程 ， 但 处 理 预算 并 不 

单个 CPython 字 节 码 的 执行 时 间 不 易 统 计 。 然 而 , 在 macOSX 笔 记 本 电脑 上 , 长 期 平均 值 
显示 每 秒 可 以 执行 60MB 左右 的 代码 。 这 意味 着 执行 1000 亿 的 字 节 码 大 约 需 要 1666 秒 或 28 
分 钟 。 

如 果 有 一 台 双 处 理 器 四 核 计 算 机 , 那么 有 可 能 将 运行 时 间 缩 减 到 原来 总 时 间 的 25%, 即 大 约 
7 分 钟 。 这 里 我 们 假定 将 任务 划分 给 了 4 个 (或 更 多 ) 独立 的 操作 系统 进程 。 

其 中 一 个 很 重要 的 考量 是 1000 亿 字 节 码 的 总 预算 是 无 法 改变 的 。 并 行 性 并 不 会 神奇 地 减少 
工作 负载 ， 它 只 能 通过 改变 对 任务 的 调度 来 减少 耗 时 。 

如 果 切 换 到 一 个 更 好 的 、 复 杂 度 为 O(n log n) 的 算法 上 ， 那么 其 工作 负载 可 以 从 1000 亿 次 运 
算 减 少 到 1.33 亿 次 运算 , 运行 时 间 大 约 是 2 秒 。 如 果 平 均 分 配 到 4 个 核 上 ,甚至 在 516 毫秒 内 就 
能 得 到 结果 。 并 行 性 无 法 像 改 变 算 法 这 样 显著 提升 性 能 。 


















































12.2.2 ”进程 或 线程 间 共 享 资 源 


操作 系统 确保 了 进程 之 间 很 少 或 根本 没有 交互 。 在 创建 进程 间 必须 交互 的 多 进程 应 用 时 ， 必 
须 显 式 地 共享 一 个 公共 的 操作 系统 资源 。 这 可 以 是 一 个 公共 文件 、 一 个 共享 内 存 的 特定 对 象 , 或 是 
进程 间 具 有 共享 状态 的 一 个 信号 量 。 进 程 本 质 上 是 彼此 独立 的 ,它们 之 间 的 交互 只 是 一 种 特殊 情况 。 


相反 ,多 线程 是 单个 进程 的 一 部 分 , 且 一 个 进程 中 的 所 有 线程 共享 操作 系统 资源 。 我 们 可 以 
破例 获取 一 些 线程 本 地 内 存 , 这 些 内 存 可 以 在 不 干扰 其 他 线程 的 情况 下 自由 地 写 入 。 在 线程 本 地 
内 存 之 外 , 写 内 存 操 作 会 以 不 可 预知 的 顺序 设置 进程 的 内 部 状态 ,因此 必须 通过 显 式 加 锁 来 避免 。 
如 前 所 述 , 指令 执行 的 整个 顺序 严格 来 讲 很 少 是 并 发 的 。 并 发 线程 和 并 发 进程 的 指令 通常 会 以 不 
可 预知 的 顺序 在 计算 核心 之 间 交 错 。 线程 化 意味 着 可 以 对 共享 变量 进行 破坏 性 更 新 , 并 且 需 要 通 
过 加 锁 才 能 进行 互 斥 访问 。 


裸 机 硬件 层 存在 一 些 更 复杂 的 写 内 存 情 况 。 关 于 写 内 存 问题 的 更 多 信息 , 可 参考 维基 百科 词 
条 memory disation 。 

在 设计 多 线程 应 用 程序 时 , 并 发 对 象 更 新 的 存在 可 能 会 造成 混乱 。 加 锁 是 避免 并 发 写 共 享 对 
象 的 一 种 方法 。 通 常 避免 使 用 共享 对 象 也 是 一 种 可 行 的 设计 技术 。 第 二 种 技术 一 一 避免 写 共 享 对 
象 更 适用 于 函数 式 编 程 。 

在 CPython 中 , GIL 用 于 确保 操作 系统 的 线程 调度 不 会 干扰 Python 内 部 数据 结构 的 维护 。 实 
际 上 ，GHIL 将 调度 的 粒度 从 机 器 指令 变 成 了 Python 虚拟 机 运算 组 。 


GIL 在 确保 数据 结构 完整 性 方面 所 产生 的 影响 通常 可 以 忽略 不 计 , 选 用 的 算法 对 性 能 影响 最 大 。 
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12.2.3 ”从 何 处 受益 


并 发 处 理 对 执行 大 量 计算 和 相对 较 少 IO 操作 的 程序 帮助 不 大 。 如 果 一 个 计算 预计 需要 28 
分 钟 完成 , 那么 以 不 同方 式 交错 运算 并 不 会 有 显著 的 影响 。 使 用 8 个 计算 核心 也 许 只 能 缩减 大 约 
1/8 的 时 间 。 实 际 节省 的 时 间 取 决 于 操作 系统 和 语言 本 身 的 开销 ， 而 它们 是 很 难 预 估 的 。 引 入 并 
发 对 性 能 的 影响 不 及 使 用 更 好 的 算法 。 


当 计 算 涉 及 大 量 WO 时 , 通过 交错 CPU 运算 和 IO 请 求 能 显著 提升 性 能 。 其 核心 思想 是 在 等 
待 操作 系统 完成 其 他 数据 IO 的 同时 计算 一 部 分 数据 。 由 于 IO 通常 需要 等 待 很 长 时 间 ， 因 此 一 
个 八 核 处 理 器 可 以 交错 执行 大 量 并 发 的 IO 请 求 。 


交叉 计算 和 JI/O 的 方法 有 两 种 ， 如 下 所 示 。 


口 可 以 创建 一 个 阶段 化 处 理 的 管道 。 每 项 数据 必须 经 由 读 取 、 过 泪 、 计 算 、 聚 合 和 写 人 等 
所 有 阶段 。 多 并 发 阶段 是 指 每 个 阶段 处 理 不 同 的 数据 对 象 。 阶 段 之 间 通 过 时 间 分 片 来 实 
现 计算 和 IO 的 交错 。 

口 可 以 创建 一 个 并 发 工作 池 ， 每 个 worker 负责 对 一 个 数据 项 执行 所 有 计算 。 数 据 项 分 配给 
池 中 所 有 worker， 由 worker 生成 结果 。 


这 些 方法 之 间 的 区 别 不 是 特别 明显 , 中 间 存 在 不 是 非 此 即 彼 的 模糊 区 域 。 通常 创建 一 个 混合 
的 结合 体 ， 用 工作 池 来 加 速 管道 中 的 某 个 阶段 , 使 其 和 管道 中 的 其 他 阶段 执行 速度 一 样 快 。 这 里 
可 以 参照 一 些 形式 体系 在 一 定 程 度 上 简化 并 发 程序 的 设计 。 通 信 顺 序 进程 ( communicating 
sequential processes，CSP ) 范式 可 以 辅助 设计 消息 传递 的 应 用 程序 。 可 以 使 用 类 似 于 pycsp 这 
样 的 包 向 Python 中 添加 CSP 形式 体系 。 


IO 密集 型 程序 通常 可 以 从 并 发 处 理 中 获得 最 大 好 处 ， 其 思想 是 交错 WO 和 计算 。CPU 密集 
型 程序 从 并 行 处 理 中 获得 的 好 处 相对 较 小 。 



































































































































12.3 ”使 用 多 进程 池 和 任务 


并 发 是 一 种 非 严 格 求 值 形式 ， 即 无 法 预知 操作 的 实际 顺序 。multiprocessing 包 引 人 了 
Pool 对 象 的 概念 。 一 个 Pool 对 象 包含 许多 工作 进程 ， 且 这 些 进程 能 并 发 执行 。 这 个 包 人 允许 操 
作 系 统 调度 和 时 间 分 片 交 错 地 执行 多 个 进程 ， 旨 在 使 整个 系统 尽 可 能 地 满 负 荷 运作 。 

为 了 充分 利用 这 种 功能 , 需要 将 应 用 程序 分 解 为 支持 非 严格 执行 的 组 件 。 整 个 应 用 程序 必须 
由 能 以 非 确定 顺序 处 理 的 离散 任务 来 构建 。 

例如 , 一 个 通过 网 页 抓 取 从 互联 网 收集 数据 的 应 用 通常 可 以 通过 并 行 处 理 实现 优化 。 我 们 可 
以 创建 一 个 具有 多 个 同等 worker 的 Pool 对 象 来 进行 网 站 抓 取 。URL 形式 的 任务 分 配给 每 个 
worker 供 其 分 析 。 
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分 析 多 个 日 志文 件 的 应 用 也 能 实现 并 行 化 。 可 以 创建 一 个 包含 分 析 worker 的 Pool 对 象 , 将 
每 个 日 志文 件 分 配给 一 个 分 析 worker， 这 就 使 得 Pool 对 象 中 各 个 worker 能 并 行 地 进行 读 取 和 
分 析 。 每 个 worker 都 会 执行 TO 和 计算 ， 但 一 个 worker 可 以 在 其 他 worker 等 待 IO 完成 的 同时 
执行 分 析 。 


由 于 性 能 获 益 取决 于 时 间 难 以 预测 的 输入 和 输出 操作 ， 因 此 往往 需要 对 多 进程 进行 大 量 试 
验 。 改 变 工作 池 的 大 小 和 测量 运行 时 间 是 设计 并 发 应 用 程序 的 重要 部 分 。 




















12.3.1 ”处理 大 量 大 型 文件 


下 面 是 一 个 多 进程 应 用 程序 的 示例 。 我 们 将 从 Web 日 志文 件 中 提取 通用 日 志 格 式 (common 
log format，CLF )， 这 是 Web 服务 器 的 访问 日 志 较 常用 的 一 种 格式 。 文 件 中 的 行 往往 很 长 ， 但 因 
书 的 页 边 距 换行 后 会 如 下 所 示 : 
99.49.32.197 - - [01/Jun/2012:22:17:54 -0400] "GET /favicon.ico 
HTTP/1.1" 200 894 "-" "Mozilla/5.0 (Windows NT 6.0) 


AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.52 
SafadrltS36:5. 


通常 需要 分 析 大 量 文件 。 许 多 独立 文件 的 存在 意味 着 并 发 有 助 于 信息 抓 取 。 


分 析 过 程 可 分 解 为 两 个 比较 宽泛 的 功能 。 处理 的 第 一 阶段 是 对 日 志文 件 进行 必要 的 解析 ,以 
收集 相关 信息 片段 。 我 们 把 该 解析 过 程 细 分 为 4 个 阶段 ， 如 下 所 示 : 


(1) 读 取 多 个 源 日 志文 件 的 所 有 行 数据 ; 

(2) 然后 为 文件 集合 中 每 一 行 日 志 条 目 创建 简单 的 命名 元 组 对 象 ; 
(3) 解析 日 期 和 URL 等 复杂 字段 的 详细 信息 ; 
(4) 从 日 志 中 排除 不 感 兴趣 的 路 径 名 ， 也 可 以 将 其 看 作 只 解析 感 兴趣 的 路 径 名 。 


解析 阶段 过 后 便 可 以 执行 大 量 分 析 操 作 了 。 下 面 通过 一 个 用 于 计算 特定 路 径 出 现 频次 的 简单 
分 析 来 演示 multiprocessing 模块 。 

第 一 部 分 是 读 取 包含 大 部 分 输入 处 理 的 源 文 件 。 Python 利用 文件 迭代 器 把 对 缓冲 数据 的 请 求 
转化 为 了 底层 操作 系统 的 请 求 。 操 作 系 统 的 每 个 请 求 都 意味 着 进程 必须 等 待 直到 数据 可 用 。 

显然 ， 如 果 同 时 交错 其 他 操作 ， 它 们 就 无 须 等 待 TO 完成 了 。 交 错 执行 的 数据 范围 可 以 从 独 
立 的 行 数据 到 整个 文件 数据 。 首 先 考 虑 交错 执行 整个 文件 ， 因 为 这 相对 容易 实现 。 

解析 Apache CLF 文件 的 函数 式 设计 如 下 所 示 : 


data = path filtez( 
access_detail_iter( 
access_iter!( 
local_gzip(filename)))) 
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较 大 的 解析 问题 分 解 为 了 许多 函数 ， 由 这 些 函 数 负责 处 理解 析 问 题 的 每 个 部 分 。 函 数 
lcoal_gzip() 从 本 地 缓存 的 GZIP 文件 中 读 取 行 数据 。 函 数 access_iter () 在 访问 日 志 中 为 
每 一 行 创 建 了 一 个 NamedTuple 对 象 。 肾 数 access_gdetail_iter() 扩 展 到 一 些 更 难 解析 的 字 
段 。 最 后 ， 函 数 path_filter () 将 丢弃 一 些 分 析 价 值 不 大 的 路 径 和 文件 扩展 名 。 


如 下 所 示 的 管道 处 理 有 助 于 将 这 种 设计 可 视 化 : 


(Local_gzip(filename) | access_iter | access_dqetail_iter | path filter) > data 


这 里 使 用 了 shell 的 管道 符号 ( | ) 将 数据 从 一 个 进程 传递 至 另 一 个 进程 -Python 内 置 的 pipes 
模块 支持 构建 实际 的 shell 管道 来 利用 操作 系统 的 多 进程 能 力 。 其 他 包 ( 如 pipetools 或 pipe ) 
提供 了 类 似 的 可 视 化 复合 函数 的 方法 。 








12.3.2 解析 日 志文 件 之 收集 行 数据 


解析 大 量 文件 的 第 一 步 是 读 取 每 个 文件 并 生成 一 个 简单 的 行 序列 。 由 于 日 志文 件 是 以 .gzip 
格式 保存 的 ， 因 此 需要 使 用 gzip .open() 函数 打开 每 个 文件 ， 而 不 是 使 用 io .open() 函数 或 
builtins _ .open() 国 数 。 




















如 下 面 的 命令 片段 所 示 ， 函 数 1ocal_gzip () 会 从 本 地 缓存 的 文件 中 读 取 行 数据 。 


from typing import Iterator 
def local_ gzip(pattern: str) -> Iterator[Iterator[str]]: 
zip_logs = glob.glob (pattern) 
for zip_file in zip_logs: 
with gzip.open(zip_file, "rb") as log: 
yield ( 
line.decode('us-ascii') .rstrip() 
for line in log) 
上 述 函 数 遍 历 了 与 给 定 模式 匹配 的 所 有 文件 。 对 于 每 个 文件 ， 生 成 的 值 是 一 个 生成 器 函数 ， 
它 会 般 历 该 文件 中 的 所 有 行 数 据 。 前 面 已 经 封装 了 一 些 东 西 ， 其 中 包括 文件 通配符 匹配 ， 打 开 
以 .gzip 格式 压缩 的 日 志文 件 的 实现 细节 ， 以 及 将 一 个 文件 分 解 为 不 包含 任何 尾部 换行 符 ( \n ) 2 
的 行 序列 。 
这 里 的 基本 设计 模式 是 生成 的 值 是 每 个 文件 的 生成 器 表达 式 。 可 以 把 上 述 函 数 重 写 为 一 个 函 
数 和 一 个 映射 ,该 映射 将 这 个 特定 函数 应 用 于 每 个 文件 。 对 于 需要 识别 个 别 文 件 的 罕见 情况 ,这 
种 方法 非常 有 用 。 在 某 些 情况 下 ， 可 以 使 用 yiela from 对 其 进行 优化 ， 这 会 使 得 所 有 日 志 
件 形似 单个 行 数据 流 。 
还 有 其 他 几 种 方法 可 以 得 到 类 似 的 输出 ， 例 如 下 面 给 出 了 上 述 示例 中 内 层 for 循环 的 一 个 
替代 版 本 ， 其 中 的 1ine_iter () 函数 也 能 得 到 给 定 文件 的 行 数 据 。 
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def line iter(zip_file: str) -> Iterator[str]: 
log = gzip.open(zip_file, "rb") 
return (line.decode('us-ascii').rstrip() for line in log) 
子 数 line_iter() 使 用 了 gzip.open() 函数 和 一 些 行 清理 操作 。 可 以 通过 映射 将 
line_iter () 阴 数 应 用 于 模式 匹配 的 所 有 文件 ， 如 下 所 示 : 


map (line_iter, glob.glob (pattern)) 


尽管 这 个 替代 版 本 很 简洁 , 但 其 缺点 是 打开 的 文件 对 象 必须 一 直 等 待 , 直到 没有 更 多 文件 引 
用 才能 被 当 作 垃 圾 进行 回收 。 在 处 理 大 量 文件 时 ， 这 会 产生 不 必要 的 开销 。 出 于 这 个 原因 ,我 们 
将 考虑 使 用 之 前 讲 的 local_gzip () 函数 。 

上 述 映射 的 蔡 代 方案 有 一 个 明显 优势 : 它 和 multiprocessing 模块 相得益彰 。 我 们 可 以 创 
建 一 个 工作 池 并 将 任务 ( 如 文件 读 取 ) 映 射 至 该 进程 池 中 。 这 样 做 让 我 们 可 以 并 行 读 取 这 些 文件 ， 
而 打开 的 文件 对 象 也 将 作为 独立 进程 的 一 部 分 。 

这 个 设计 的 扩展 包含 了 第 二 个 函数 ， 它 使 用 FTP 传输 来 自 Web 主机 的 文件 。 当 从 Web 服务 
器 收集 到 文件 后 ， 便 可 以 使 用 local_gzip() 函数 来 分 析 它 们 了 。 


函数 access_iter1() 会 使 用 local_gzip() 函数 的 结果 来 为 描述 文件 访问 的 源 文件 中 的 每 
一 行 创 建 命名 元 组 。 


















































12.3.3 ”解析 日 志 行 为 命名 元 组 

一 旦 访问 了 每 个 日 志文 件 的 所 有 行 数据 , 就 可 以 提取 所 描述 的 详细 访问 信息 了 。 下面 使 用 正 
则 表达 式 来 分 解 每 一 行 ， 以 此 构建 出 namedtuple 对 象 。 

使 用 如 下 正则 表达 式 解 析 CLF 文件 的 每 一 行 。 


import re 
format_pat = re.compilel 
r"(?P<host>[\d\.]+)\s+t" 








r"(?P<identity>\S+) \s+" 
r"(?P<user>\S+) \s+" 
r"\[(?P<time>.+?) \] \s+" 
r'"(?P<request>.+?)"\s+"' 
r"(?P<status>\d+) \s+" 
r"(?P<bytes>\S+) \s+" 
r'"(?P<referer>.*?)"\s+' # [SIC] 
r'"(?P<user_agent>.+?)"\S*' 


) 

可 以 使 用 这 个 正则 表达 式 将 每 一 行 分 解 为 包含 9 个 独立 数据 元 素 的 字典 。 使 用 [] 和 "来 分 隔 
以 time、request、referrer 以 及 user_agent 等 为 参数 的 复杂 字段 ， 可 以 轻松 地 将 文本 转 
换 为 NamedTuple 对 象 。 
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可 以 将 每 个 独立 访问 概括 为 NamedTuple 的 子 类 ， 如 下 所 示 : 


from typing import NamedTuple 
class Access (NamedTuple): 
host: str 
identity: str 
user: str 
time: str 
request: str 
status: str 
bytes: str 
referer: str 
user_agent: str 


上 面 竭力 确保 了 NamedTuple 的 字段 名 与 记录 中 每 一 部 分 的 (?P<name>) 构造 体 
中 的 正则 表达 式 组 名 称 相 匹配 ， 以 便于 将 解析 后 的 字典 转换 为 元 组 供 后 续 处 理 。 


下 面 的 access_iter() 函数 要 求 每 个 文件 都 表示 为 基于 文件 行 的 迭代 器 : 


from typing import Iterator 
def access_iter!( 
source_iter: Iterator[Iterator[str]] 
) -> Iterator[lAccess]: 
for log in source_iter: 
for line in log: 
match = format_ pat.match (line) 
if “matehn: 
yield Access(**match.groupdict()) 


函数 local_gzip() 的 输出 是 一 组 序列 的 序列 。 外 层 序列 基于 各 个 日 志文 件 , 对 于 每 个 文件 ， 
都 有 一 个 般 套 的 可 迭代 行 序列 。 如 果 某 一 行 匹配 给 定 的 模式 ， 那 它 就 是 某 种 文件 访问 。 可 以 通过 
match 字典 创建 Access 命名 元 组 。 不 匹配 的 行 数据 会 被 静默 丢弃 。 


基本 的 设计 模式 是 根据 解析 函数 的 结果 构建 不 可 变 对象 。 在 本 例 中 , 解析 函数 是 一 个 正则 表 
达 式 匹配 器 。 其 他 类 型 的 解析 也 适用 于 这 种 设计 模式 。 


还 有 一 些 替 代 方 法 可 以 做 到 这 一 点 。 例 如 可 以 使 用 map () 函数 ， 如 下 所 示 : 


def access_builder(1ine: str) -> Optional [Access] : 
match = format pat.match (line) 
if match: 
return Access(**match.groupdict ()) 
return None 


上 例 中 的 蔡 代 函数 只 包含 必要 的 解析 和 Access 对 象 的 构造 。 它 会 返回 一 个 Access 对 象 或 
者 None 对 象 。 下 面 使 用 该 函数 将 日 志文 件 扁平 化 为 单个 Access 对 象 流 。 
filter( 


None, 
map ( 
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access_builder, 
(line for log in source_iter for line in log) 


) 
这 展示 了 将 local_gzip() 函数 的 输出 转换 为 一 系列 Access 实例 的 过 程 。 在 本 例 中 , 我 们 


将 access_builaer () 函数 应 用 于 具有 可 迭代 结构 的 谍 套 迭代 器 ， 该 结构 是 通过 读 取 文件 集合 
得 到 的 。 函 数 filter () 从 map () 图 数 的 结果 中 移 除 了 None 对 象 。 


这 里 重点 展示 了 许多 可 用 于 解析 文件 的 函数 式 方法 。 第 4 童 介绍 了 非常 简单 的 解析 方法 ,而 
这 里 运用 各 种 技术 实现 了 更 为 复杂 的 解析 。 
































12.3.4 解析 Access 对 象 的 其 他 字段 


对 于 构成 访问 日 志文 件 行 数据 的 9 个 字段 ， 此 前 创建 的 access 对 象 不 会 对 其 内 部 的 一 些 
元 素 进 行 分 解 。 我 们 将 通过 整体 分 解 将 这 些 数据 项 分 别 解析 为 高 层 字段 。 单 独 执 行 这 些 解 析 操 
作 可 以 简化 每 个 处 理 阶 段 。 这 也 让 我 们 无 须 破坏 日 志 分 析 的 通用 结构 而 蔡 换 整个 处 理 过 程 中 的 一 


下 一 阶段 解析 得 到 的 对 象 AccessDpetails 是 NamedTuple 的 一 个 子 类 ， 并 且 它 封装 了 原 
始 的 access 元 组 。 该 对 象 使 用 如 下 一 些 额外 的 字段 来 分 别 表 示 解 析 细 节 : 
from typing import NamedTuple, Optional 


import datetime 
import urllib.parse 
































class AccessDetails (NamedTuple): 
access: Access 
time: datetime.datetime 
method: str 
url: urllib.parse.ParseResult 
DEOLOGOLY -Str 
referrer: urllib.parse.ParseResult 
agent: Optional[AgentDetails] 


属性 access 是 原始 的 Access 对 象 ， 即 简单 字符 串 的 集合 。 属 性 time 是 解析 后 的 
access.time 字符 串 ,。 属 性 method、url 和 protocol 通过 分 解 access .上 quest 字段 得 到 。 
属性 referrer 是 一 个 解析 后 的 URL。 


属性 agent 还 可 以 分 解 为 更 细 粒 度 的 字段 。 非 常规 浏览 器 或 网 站 扑 虫 会 生成 一 个 无 法 解析 
的 agent 字符 串 ， 因 此 该 属性 的 类 型 提示 为 optional。 
以 下 属性 构成 了 NamedTuple 类 的 子 类 AgentDetails。 


class AgentDetails (NamedTuple): 
Sroduets tr 
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system: str 
platform details_extensions: str 


这 些 字段 反映 了 描述 代理 最 常用 的 语法 。 尽管 这 方面 存在 相当 大 的 差异 , 但 此 特定 子 集 似乎 
相当 普遍。 

以 下 3 个 解析 需 用 于 精细 分 解 字段 : 

from typing import Tuple, Optional 


import datetime 
import re 





def parse_ request (request: str) -> Tuplelstr, str, str]: 
words = request.split!() 
return words[0], ' '.join(words[1:-1]), words{[-1] 


def parse time(ts: str) -> datetime.datetime: 
return datetime.datetime.strptimel( 
ts, "%$d/%b/%Y:%SH: SM:%S Sz" 
) 


agent_ pat = re.compilel 
r"(?P<product>\S*?)\s+" 
r"\((?P<system>.*?)\)\s*" 
r"(?P<platform details_ extensions>.*)" 


) 


def parse_agent (user_agent: str) -> Optional[AgentDetails]: 
agent_ match = agent_ pat.match (user_agent) 
if agent match: 
return AgentDetails(**agent match.groupdict()) 
return None 














我 们 为 HTTP 请 求 、 时 间 戳 和 用 户 代 理 信息 编写 了 3 个 解析 器 。 日 志 中 的 请 求 值 通常 是 由 3 
个 词 构成 的 字符 串 ， 如 GET /some/path HTTP/1.1。 限 数 parse_request () 提 取 了 这 3 个 以 
空格 分 隔 的 值 。 如 果 路 径 中 也 包含 空格 ， 那 么 提取 第 一 个 词 和 最 后 一 个 词 分 别 作为 方法 和 协议 ， 
剩 下 的 词 则 作为 路 径 的 一 部 分 。 

















时 间 解 析 委 派 给 了 datetime 模块 ， 并 日 parse_time () 函数 中 提供 了 适当 的 格式 。 


解析 用 户 代理 比较 有 挑战 性 。 对 此 有 许多 方法 ,我 们 为 parse_agent () 函数 选择 了 一 种 常 
用 的 处 理 方法 。 如 果 用 户 代 理 文本 与 给 定 的 正则 表达 式 匹 配 ， 那 么 使 用 AgentDetails 类 的 属 
性 。 如 果 用 户 代理 信息 与 正则 表达 式 不 匹配 ， 那 么 使 用 None 值 代替 。 原 始 文本 可 以 从 Access 
对 象 中 获取 。 

















dol 











基于 给 定 的 Access 对 象 ， 我们 将 使 用 这 3 个 解析 器 构建 AccessDetails 实例 。 函 数 
access_detail_iter() 的 主体 如 下 所 示 : 
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from typing import Iterable, Iterator 
def access_detail_iter(access_iter: ILerable[Access]) -> Iterator[AccessDetails]: 
for access in access_iter: 
Ty 
meth, url, protocol = parse_ request (access.request) 
yield AccessDetails!( 
access=access, 
time=parse_time(access.time), 
method=meth, 
url=urllib.parse.urlparse (url), 
protocol=protocol, 
referrer=urllib.parse.urlparse (access.referer), 
agent=parse_agent (access.user_agent) 
) 
except ValueError as e: 
print (e, repr (access)) 


我 们 使 用 了 与 先前 access_iter() 函数 类 似 的 设计 模式 。 解 析 某 个 输入 对 象 ， 基 于 结果 构 
建 了 一 个 新 对 象 。 新 的 accessDetails 对 象 会 封装 之 前 的 Access 对象。 利用 这 种 技术 让 我 们 
不 仅 可 以 使 用 不 可 变 对 象 ， 还 能 包含 更 多 详细 信息 。 


这 个 函数 本 质 上 是 从 一 个 Access 对 象 到 一 个 AccessDetails 对 象 的 映射 。 另 一 种 替代 设 
计 如 下 ， 它 使 用 了 相对 高 阶 的 map () 函数 。 


from typing import Iterable, Iterator 
def access_detail_iter2( 
access_iter: Iterable[Access] 
) -> Iterator[AccessDetails]: 














def access_detail_builder(access: Access) -> Optional [AccessDetails] : 
七 了 
meth, uri, protocol = parse_request (access.request) 
return AccessDetails( 
access=access, 
time=parse_time(access.time), 
method=meth, 
url=urllib.parse.urlparse (uri), 
DrotocGlsprotocol;, 
referrer=urllib.parse.urlparse (access.referer), 
agent=parse_agent (access.user_agent) 
) 
except ValueError as e: 
print (e, repr (access)) 
return None 


return filter( 
None, 
map(laccess_detail_builder, access_iter) 
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我 们 从 构造 accessDetails 对 象 改 为 构造 一 个 返回 单个 值 的 函数 。 可 以 将 该 函数 映射 到 原 
始 access 对 象 的 可 迭代 输入 流 中 ， 这 与 multiprocessing 模块 的 工作 方式 非常 相 适 。 


在 面向 对 象 编程 环境 中 , 这 些 额 外 的 解析 需 可 以 是 类 定义 中 的 方法 函数 或 者 属性 。 具 有 惰性 
解析 方法 的 面向 对 象 设 计 的 优点 是 数据 项 只 在 需要 时 才 会 被 解析 。 这 个 特定 的 函数 式 设计 方法 可 
以 解析 任何 东西 ， 只 需 假定 会 用 到 它 。 


创建 一 个 惰性 函数 式 设计 是 可 行 的 , 它 可 以 基于 3 个 解析 器 函数 并 根据 需求 从 Access 对 象 
中 提取 并 解析 各 种 元 素 。 我 们 使 用 parse_time (access .time) 参 数 而 不 使 用 details.time 
盟 性 。 尽 管 语法 上 变 长 了 ， 但 它 确保 了 只 在 需要 时 才 解 析 属 性 。 



























































12.3.5 ”过滤 访问 细节 


下 面 介 绍 AccessDetails 对 象 的 几 个 过 滤器 。 第 一 个 用 于 排除 我 们 不 感 兴趣 的 大 量 无 用 文 
件 。 第 二 个 过 滤 需 会 作为 分 析 函 数 的 一 部 分 ， 稍 后 将 展开 讨论 。 


因数 path_filter() 具 有 以 下 3 个 功能 


口 排除 空 路 径 ; 

口 排除 特定 文件 名 ; 

口 排除 具有 特定 扩展 名 的 文件 。 

优化 版 的 path_filter() 函数 如 下 所 示 : 
def path filter!( 


access_details_iter: Iterable[AccessDetails] 
) -> Iterable[AccessDetails]: 











name_exclude = { 
'favicon.ico', 'robots.txt', 'index.php', 'humans.txt', 
'dompdf .php', 'crossdomain.xml', 
'_images', 'search.html', 'genindex.html', 
'searchindex.js', 'modindex.html', 'py-modindex.html', 


J 
ext_exclude = { 
A 二 全 汉 全 二， 人生 全 各 全 人才 





} 
for detail in access_dqetails_iter: 
path = detail.url.path.split('/') 
if not any (path): 
continue 
if any(p in name_ exclude for p in path): 
continue 
final = path[-1] 
if any (final.endswith(ext) for ext in ext_exclude): 
continue 
yield detail 
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我 们 对 每 个 独立 的 AccessDetails 对 象 使 用 3 个 过 滤器 测试 。 如 果 路 径 名 实际 为 空 ， 或 者 
含有 一 个 需要 排除 的 名 称 ， 又 或 者 路 径 名 称 末尾 包含 需要 排除 的 扩展 名 ， 则 静默 地 忽略 路 径 名 。 
如 果 路 径 名 不 满足 其 中 任何 一 个 条 件 ,那么 我 们 可 能 会 对 它 感 兴趣 , 它 也 将 成 为 bath_filter1() 
函数 最 终结 果 的 一 部 分 。 

这 是 一 种 优化 技术 ， 因 为 所 有 测试 都 使 用 了 命令 式 的 for 循环 体 。 

男 一 种 设计 方法 是 将 每 个 测试 定义 为 独立 的 、 过 滤器 风格 的 头等 函数 。 例 如 可 用 以 下 函数 处 
理 空 路 径 : 

def non_ empty_path(detail: AccessDetails) -> bool: 


path = detail.url.path.split('/') 
return any (path) 


该 函数 简单 地 确保 了 路 径 中 必须 包含 一 个 名 称 。 可 如 下 所 示 使 用 filter () 函数 : 


filter(non empty_path, access_ details_iter) 



































可 以 为 non_excludegd_names () 和 non_excludqedq_ext() 函数 编写 类 似 的 测试 。 整 个 
filter() 函数 序列 如 下 所 示 : 


filter(non excluded ext, 
filter(non_excluded_ names, 
filter (non_ empty_path, access_ details_ iter))) 


其 中 每 个 filter () 函数 都 作用 于 前 一 个 filter () 函数 的 结果 。 空 路 径 以 及 该 子 集中 需要 
排除 的 名 称 和 扩展 名 都 会 被 拒 接 。 还 可 以 将 上 述 示例 声明 为 一 系列 赋值 语句 ， 如 下 所 示 : 


non_empty = filter(non empty_path, access_details_iter) 
nx_name = filter(non excluded names, non_ empty) 











nx_ext = filter(non excluded_ ext, nx_name) 


该 版 本 的 优点 是 当 添 加 新 的 过 滤 条 件 时 易于 扩展 。 
使 用 生成 器 函数 (如 filter () 函数 ) 意 味 着 我 们 并 没有 创建 大 的 中 间 结 果 对 象 。 
每 一 个 中 间 变 量 (ne、nx_name 和 nx_ext ) 都 作为 合适 的 惰性 生成 器 函数 ， 
不 会 在 客户 端 进程 处 理 完 数据 之 前 执行 任何 处 理 。 
尽管 看 上 去 简单 , 但 由 于 每 个 函数 都 需要 解析 AccessDetails 对 象 中 的 路 径 , 因此 效率 很 
低 。 为 了 提高 效率 ， 可 使 用 1ru_cache 属性 封装 一 个 path.split('/') 函数 。 























12.3.6 分析 访问 细节 


下 面 介绍 两 个 分 析 函 数 ， 并 使 用 它们 来 过 滤 和 分 析 各 个 AccessDetails 对 象 。 第 一 个 
filter() 函数 只 传递 特定 路 径 。 第 二 个 函数 会 汇总 每 个 不 同 路 径 的 出 现 频次 。 
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下 面 定 义 一 个 小 函数 book_in_path() ， 并 结合 内 置 的 filter () 函数 ,用 于 分 析 细 节 。 复 
合 的 book_filter () 函数 如 下 所 示 : 


from typing import Iterable, Iterator 
def book_filter!( 
access_details_iter: Iterable[AccessDetails] 
) -> Iterator[AccessDetails]: 
def book_in path(detail: AccessDetails) -> bool: 
path = tuplel 


item 
for item in detail.url.path.split('/') 
if item 

) 

return path[0] == 'book' and len(path) > 1 


return filter(book_ in path, access_details_iter) 

















这 样 就 通过 pook_in_patn 国 数 定义 了 一 条 规则 ， 并 将 其 应 用 于 每 个 AccessDetails 对 
象 。 如 果 路 径 名 非 空 ， 且 路 径 的 一 级 属性 是 book ， 那 么 我 们 会 对 这 些 对 象 感 兴趣 ， 其 他 所 有 
AccessDetails 对 象 都 会 被 静默 排除 。 


我 们 最 感 兴趣 的 是 redauce_pbook_total() 归 约 函 数 ， 如 下 所 示 : 


from collections import Counter 
def reduce_ book_totall( 
access_details_iter: Iterable[AccessDetails] 
) -DIGE[StE,. "Liit]: 
counts: Dict[lstr, int] = Counter () 
for detail in access_ details_ iter: 
counts[detail.url.path] += 1 
return counts 


























该 函数 会 生成 一 个 counter () 对象， 用 于 显示 AccessDetails 对 象 中 每 个 路 径 出 现 的 频 
率 。 可 以 使 用 reduce_total (book_filter (details)) 方 法 关注 某 组 的 特定 路 径 ， 它 汇总 了 
给 定 过 滤器 可 接收 的 数据 项 。 


由 于 countet 对 象 适 用 于 各 类 型 ， 因 此 需要 类 型 提示 来 缩小 类 型 范围 。 在 本 例 中 ， 类 型 提 
示 是 Dict [str，int]， 它 会 告知 mypy 工具 统计 路 径 的 字符 串 表示 形式 。 








12.3.7 “完整 的 分 析 过 程 
用 于 处 理 日 志文 件 集合 的 analysis () 复 合 函 数 如 下 所 示 : 


def analysis(filename: str) -> Dictl[str, int]: 
"""Count book chapters in a given log""" 
details = path filter!( 
access_detail_iter( 
access_iter!( 
local_gzip (filename)))) 
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books = book filter(details) 
totals = reduce_ book_ total (books) 
return totals 
函数 analysis () 使 用 local_gzip () 函数 来 处 理 单个 文件 名 或 文件 模式 。 它 运用 一 组 标准 
的 解析 限 数 path_filter()、access_detail_iter() 和 access_iter() 等 创建 了 一 个 可 达 
代 的 AccessDetails 对 象 序列 。 随后 它 将 分 析 过 滤器 和 归 约 器 应 用 于 该 AccessDetails 对 象 
序列 。 结 果 是 一 个 可 以 显示 特定 路 径 访 问 频次 的 Counter 对 象 。 


将 这 个 特定 的 数据 集合 保存 为 了 .gzip 格式 的 日 志文 件 , 总 数据 量 约 为 S1MB。 如 果 用 该 函 
数 串 行 处 理 这 些 文件 ， 耗 时 超过 140 秒 。 能 和 否 通过 并 发 处 理 来 获得 更 好 的 效果 呢 ? 


12.4 ”使 用 多 进程 池 进 行 并 发 处 理 


可 以 使 用 multiprocessing 模块 创建 一 个 Pool 处 理 对 象 , 并 将 任务 分 配给 进程 池 中 的 各 
个 进程 。 我 们 将 利用 操作 系统 来 交错 各 个 进程 之 间 的 执行 。 如 果 每 个 进程 都 混合 了 1O 和 计算 ， 
那么 处 理 器 会 处 于 满 负 荷 工作 状态 。 在 进程 等 待 TO 完成 的 同时 , 其 他 进程 可 以 执行 各 自 的 计算 。 
当 VO 完成 后 ， 进 程 将 启动 并 与 其 他 进程 竞争 处 理 器 时 间 。 


将 任务 映射 到 独立 进程 的 方法 如 下 所 示 : 


import multiprocessing 
with multiprocessing.Pool(4) as workers: 
workers.map(lanalysis, glob.glob (pattern)) 


上 面 创建 了 一 个 含 4 个 独立 进程 的 Pool 对象， 并 将 这 个 Pool 对 象 赋 给 了 workers 变量 。 
然后 使 用 该 进程 池 将 analysis 函数 映射 到 了 一 个 待 完成 的 可 迭代 任务 队列 。 该 可 迭代 队列 会 为 
workers 池 中 的 每 个 进程 分 配 任 务 。 在 本 例 中 , 该 队列 是 使 用 glob.glob (pattern) 属 性 后 得 
到 的 ， 是 一 个 文件 名 序列 。 


当 analysis () 函数 返回 结果 时 ,创建 Pool 对 象 的 父 进程 便 可 以 收集 这 些 结果 了 。 这 人 允许 
我 们 创建 多 个 并 发 构建 的 counter 对 象 ， 并 将 它们 合并 为 单个 的 复合 结果 。 


如 果 在 进程 池 中 启动 bp 个 进程 ,那么 整个 应 用 程序 将 包括 p+1 个 进程 , 由 一 个 父 进程 和 PP 个 
子 进 程 组 成 。 由 于 父 进程 在 子 进 程 池 启动 之 后 几乎 无 事 可 做 ， 因 此 这 种 做 法 通常 很 有 效 。 通 常 我 
们 会 将 worker 分 配 至 单独 的 CPU (或 计算 核心 )， 而 父 进程 则 与 Pool 对 象 中 的 一 个 子 进程 共享 
一 个 CPU。 































































































常规 的 Linux 父 / 子 进程 规则 适用 于 由 该 模块 创建 的 子 进程 。 如 果 父 进程 在 正确 
收集 到 子 进程 最 终 状 态 之 前 崩 演 了 ,那么 便 会 留 下 仍 在 运行 的 伪 尸 进程 ,鉴于 此 ， 

(人 进程 的 Pool 对 象 会 作为 上 下 文 管理 器 。 当 通过 with 语句 使 用 该 进程 池 时 ， 在 
上 下 文 结 束 后 子 进 程 都 会 适时 终止 。 
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默认 情况 下 ， 一 个 Pool 对 象 会 根据 multiprocessing.cpu_count () 函数 的 值 创 建 多 个 
worker。 该 数值 通常 是 最 优 的 ， 因 此 简单 使 用 属性 multiprocessing.Pool() as workers: 
就 足够 了 。 

在 某 些 情况 下 ， 创 建 比 CPU 个 数 更 多 的 worker 也 会 有 帮助 。 当 每 个 worker 都 需要 进行 IO 密 
集 型 处 理 时 ， 这 种 情况 便 会 存在 。 让 许多 worker 进程 等 待 IO 完成 可 以 缩短 应 用 程序 的 运行 时 间 。 

如 果 给 定 的 Pool 对 象 中 有 pp 个 worker, 那么 这 种 映射 可 以 将 处 理 器 时 间 几 乎 缩减 至 连续 处 
理 这 些 日 志 所 需 时 间 的 。 实 际 上 ，Pool 对 象 中 父 进程 和 子 进程 之 间 的 通信 存在 一 定 开 销 。 如 
果 将 任务 细 分 为 非常 小 的 并 发 单元 ， 那 么 这 些 开 销 会 限制 并 发 的 效率 。 

多 进程 的 Pool 对 象 有 4 个 类 map () 方 法 , 分 别 是 map () 、imap () 、imap_unordered () 
和 starmap () 函数 ， 它 们 负责 在 进程 池 中 分 配 任务 。 这 4 个 函数 是 一 个 通用 模式 的 变 体 ， 该 模 
式 将 函数 赋 给 进程 池 中 的 每 个 函数 ， 并 将 数据 映射 至 该 函数 。 它 们 分 配 任务 和 收集 结果 的 方式 
不 同 。 

map (function，iterable) 方 法 将 授 代 项 分 配给 进程 池 中 的 每 个 worker。 结 果 按 照 分 配 
Pool 对 象 时 的 顺序 进行 收集 ， 以 保留 原始 顺序 。 
imap (function, iterable) 方 法 比 map () “懒惰 ”。 默 认 情 况 下 ， 它 会 把 每 个 单独 的 迭代 
项 发 送 给 下 一 个 可 用 的 worker。 这 可 能 会 引入 额外 的 通信 开销 ， 因 此 建议 使 用 大 于 1 的 块 。 


imap_unordered (function, iterable) 方 法 与 imap () 方 法 类 似 ， 但 它 不 会 保留 结果 的 
顺序 。 人 允许 乱 序 处 理 映 射 意味 着 一 旦 进程 完成 处 理 便 收集 结果 ， 和 否则 必须 按 序 收集 结果 。 




































































starmap (function，iterable) 方 法 类 似 于 itertools.starmap() 国 数 。 每 个 旬 代 项 
必须 是 元 组 ， 并 且 为 了 让 元 组 中 的 每 个 值 成 为 位 置 参数 ， 使 用 了 * 修 饰 符 将 其 传递 给 函数 。 实 际 


Par: 


上 ， 它 执行 的 是 function(xiterable[0])，function(*iterable[1]) 等 困 数 。 


上 述 映射 模式 的 一 个 变 体 如 下 所 示 : 


import multiprocessing 
pattern SS Ww ge 
combined = Counter() 
with multiprocessing.Pool() as workers: 
result_iter = workers.imap_unordered!( 
analysis, glob.glob (pattern)) 
for result in result_iter: 
combined.update (result) 


这 样 就 创建 了 一 个 counter () 函数 ， 用 于 合并 进程 池 中 每 个 worker 的 结果 。 我 们 基于 可 用 
的 CPU 创建 了 一 个 子 进程 池 , 并 使 用 Pool 对 象 作 为 上 下 文 管理 器 。 然后 将 analysis () 函数 映 
射 至 文件 匹配 模式 中 的 每 个 文件 。 通 过 analysis () 函数 得 到 的 所 有 counter 对 象 最 终 合并 成 
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了 一 个 计数 需 。 


该 版 本 分 析 一 批 日 志文 件 花费 了 大 约 68 秒 。 使 用 多 个 并 发 进程 可 大 幅 缩减 分 析 日 志 的 用 时 。 
单 进程 的 基准 运行 时 间 是 150 秒 。 如 果 想 确定 让 系统 满 负 奏 运 作 所 需 的 worker 数量 ,需要 在 更 
大 的 进程 池 中 进行 额外 的 试验 。 


我 们 使 用 multiprocessing 模块 中 的 Pool .map () 函数 创建 了 一 个 双 层 “映射 - 归 约 ”过 
程 。 第 一 层 是 analysis () 函数 ， 它 对 单个 日 志文 件 进行 映射 和 归 约 ， 然 后 用 更 高 层 的 归 约 操作 
合并 这 些 归 约 结果 。 














12.4.1 使 用 apply() 发 送 单个 请 求 


除了 map () 函数 的 变 体 ， 也 可 以 使 用 apply (function，*args，**kw) 方 法 向 工作 池 传 
递 值 。map () 方 法 实际 上 只 是 一 个 封装 了 apply () 方 法 的 for 循环 。 例 如 ， 可 以 使 用 以 下 命令 : 


1ist( 
workers.apply (analysis, f£) 
for f in glob.glob (pattern) 








) 


尚 不 清楚 这 样 做 能 否 显著 带 来 改进 ,但 可 以 用 map () 函数 来 表示 需要 做 的 几乎 任何 事 。 


12.4.2 使 用 map_async()、starmap_async() 和 starmap_async() 等 函数 


函数 map_async() 、starmapb_async() 和 starmap_async() 负 责 将 任务 分 配给 Pool 对 
象 中 的 子 进程 ， 当 子 进程 完成 处 理 后 便 从 子 进 程 收集 结果 。 这 会 导致 子 进程 必须 等 待 父 进程 来 收 
集结 果 。 函 数 _async () 的 变 体 不 会 等 待 子 进 程 完成 。 这 些 函 数 会 返回 一 个 可 供 查 询 的 对 象 ， 用 
于 从 子 进 程 中 获取 单独 的 结 


使 用 map_async () 方 法 的 一 个 变 体 如 下 : 


import multiprocessing 




















a 
combined = Counter () 
with multiprocessing.Pool() as workers: 


results = Workers .map_async ( 
analysis, glob.glob (pattern)) 
data = results.get() 
for c in data: 
combined.update(c) 


这 样 就 创建 了 一 个 counter () 函数 ， 用 于 合并 进程 池 中 每 个 worker 的 结果 。 我 们 基于 可 用 
的 CPU 创建 了 一 ps 并 使 用 Pool 对 象 作为 上 下 文 管理 器 。 然 后 将 analysis () 函数 映 
射 至 文件 匹配 模式 中 的 每 个 文件 。 函 数 map_async () 返回 的 是 一 个 MapResult 对 象 ， 可 以 借 
此 查询 结果 和 工作 池 的 整体 状态 。 这 个 例子 使 用 了 get () 方 法 来 获取 couter 对 和 象 序列 。 
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函数 analysis() 生 成 的 counter 对 象 最 终 组 合成 了 单个 counter 对 象 。 这 种 聚合 汇总 了 
些 日 志文 件 的 所 有 信息 。 这 种 处 理 方式 并 不 比 上 一 个 例子 快 ， 但 使 用 map_async () 函数 允许 
进程 在 等 待 子 进程 完成 的 同时 处 理 一 些 额 外 的 工作 。 








父 


12.4.3 更 复杂 的 多 进程 架构 


multiprocessing 包 支 持 各 种 架构 。 我 们 可 以 创建 跨 多 个 服务 器 的 多 进程 结构 , 并 提供 官 
方 身份 认证 技术 以 设立 必要 的 安全 等 级 。 可 以 使 用 队列 和 管道 将 对 象 从 一 个 进程 传递 到 另 一 个 
进程 ， 也 可 以 在 进程 间 共 享 内 存 。 还 可 以 在 进程 之 间 共 享 底层 锁 ,， 来 同步 对 共享 资源 ( 如 文件 ) 
访问 。 

这 些 架构 中 , 大 多 数 都 涉及 显 式 管 理 多 个 工作 进程 的 状态 ,特别 是 使 用 锁 和 共享 内 存 ,， 它们 
在 本 质 上 是 命令 式 的 ， 并 不 适合 函数 式 编程 方法 。 


在 一 定 程度 上 , 可 以 用 函数 式 的 方法 处 理 队列 和 管道 。 我 们 的 目标 是 将 设计 分 解 为 生产 者 函 
数 和 消费 者 函数 。 生 产 者 函数 可 以 创建 对 象 并 将 它们 插入 队列 中 。 消费 者 函数 会 从 队列 中 提取 对 
象 并 进行 处 理 , 它 可 能 还 会 将 中 间 结 果 放 入 另 一 个 队列 中 。 这 样 就 创建 了 一 个 并 发 处 理 网 络 , 其 
工作 负载 分 布 于 不 同 的 进程 之 间 。 使 用 pycsp 包 可 以 简化 进程 间 基 于 队列 的 消息 交换 。 更 多 相 
关 信 息 ， 请 访问 https://pypi.python.org/pypi/pycsp。 


这 种 设计 技术 适用 于 复杂 应 用 程序 服务 器 的 设计 。 各 个 子 进程 可 以 存在 于 服务 器 的 整个 生命 
周期 中 ， 并 发 处 理 各 自 的 请 求 。 






























































12.4.4 使 用 concurrent .futures 模块 


除了 multiprocessing 他 还 可 以 利用 concurrent.futures 模块 。 该 模块 也 提供 了 一 
种 将 数据 映射 到 并 发 的 线程 池 或 进程 池 的 方法 。 该 模块 的 API 相对 简单 ， 并 且 在 许多 方面 都 与 
multiprocessing.Pool () 函数 的 接口 类 似 。 


它们 之 间 的 相似 度 如 下 所 示 : 


from concurrent.futures import ProcessPoolExecutor 
pool_size = 4 
edo oa oe Te pA 
combined = Counter() 
with ProcessPoolExecutor (max_workers=pool_size) as workers: 
for result in workers.map(analysis, glob.glob (pattern)): 
combined.update (result) 


这 个 例子 和 先前 那些 例子 之 间 最 主要 的 不 同 在 于 使 用 了 一 个 concurrent .futures. 
ProcessPoolRExecutor 对 象 的 实例 , 而 不 是 multiprocessing.Pool 方法 。 这 里 的 基本 设计 
模式 是 使 用 可 用 的 工作 池 将 analysis () 函数 映射 到 文件 名 列表 。 将 生成 的 counter 对 象 合 并 
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来 创建 最 终结 





模块 concurrent .futures 的 性 能 与 multiprocessing 模块 几乎 相同 。 


12.4.5 ”使 用 concurrent .futures 线程 池 


模块 concurrent.futures 为 应 用 程序 提供 了 第 二 种 执行 器 。 可 以 创建 并 使 用 
ThreadPoolExecutor 对 象 来 代替 concurrent .futures.ProcessPoolExecutor 对 象 ,， 这 
会 在 单个 进程 内 创建 一 个 线程 池 。 


线程 池 的 语法 与 使 用 ProcessPoolExecutor 对 象 几 乎 一 致 ， 然 而 性 能 却 相 差 很 大 。 在 这 
个 分 析 日 志文 件 的 示例 中 ，LIO 占据 了 主要 任务 。 由 于 进程 中 的 所 有 线程 都 受到 统一 的 操作 系统 
调度 限制 ， 因 此 多 线程 日 志文 件 分 析 的 整体 性 能 与 串 行 处 理 日 志文 件 的 性 能 差不多 。 


使 用 示例 中 的 日 志文 件 和 一 台 运 行 macOS X 的 小 型 四 核 笔 记 本 电脑 ， 下 面 的 结果 显示 了 共 
享 IO 资源 的 线程 与 进程 之 间 的 性 能 差异 。 



































口 使 用 concurrent .futures 线程 池 ， 运 行 时 间 为 168 秒 。 
口 使 用 进程 池 ， 运 行 时 间 为 68 秒 。 

在 这 两 种 情况 下 ，Pool 对 象 的 大 小 都 为 4。 单 进程 和 单线 程 的 基准 运行 时 间 为 150 秒 ， 引 
人 更 多 的 线程 反而 拖 慢 了 运行 速度 。 对 于 执行 大 量 输入 和 输出 的 程序 来 说 , 这 是 较为 典型 的 结论 。 
多 线程 可 能 更 适 于 处 理 用 户 界面 :线程 长 时 间 处 于 空闲 状态 , 或 者 等 竺 用户 移动 鼠标 和 触摸 屏幕 。 


























12.4.6 ”使 用 threading 模块 和 queue 模块 


Python 的 threading 包 有 许多 支持 构建 命令 式 应 用 程序 的 构造 体 。 该 模块 的 重点 不 在 于 编 
写 函 数 式 应 用 程序 。 我 们 可 以 利用 queue 模块 中 线程 安全 的 队列 将 对 象 从 一 个 线程 传递 到 另 一 
个 线程 。 

模块 threading 中 并 没有 简单 的 方法 能 将 任务 分 配 至 各 个 线程 ， 其 API 并 不 太 适 合 函 数 式 
编程 。 

与 multiprocessing 模块 中 更 为 原始 的 特性 一 样 , 可 以 尝试 隐藏 锁 与 队列 的 状态 特性 和 命 
令 特 性 。 然 而 , 使 用 concurrent . futures 模块 中 的 ThreadPoolExecutor 方法 似乎 更 简便 。 
ProcessPoolExecutor.map() 方 法 有 一 个 非常 易 用 的 接口 ， 可 用 于 并 发 处 理 集合 元 素 。 


使 用 map () 函数 原 语 分 配 任务 似乎 很 符合 函数 式 编程 的 要 求 ， 因 此 要 多 关注 concurrent . 
futures 模块 ， 它 最 适 于 编写 并 发 函数 式 应 用 程序 。 
























































12.4 使 用 多 进程 池 进 行 并 发 处 理 207 





12.4.7 ”设计 并 发 处 理 
从 函数 式 编程 的 角度 看 ,可 以 使 用 以 下 3 种 方法 将 map () 函数 的 概念 应 用 于 数据 项 的 并 发 处 理 : 








口 multiprocessing.Pool 





口 concurrent.futures.ProcessPoolExecutor 








口 concurrent.futures.ThreadPoolExecutor 


这 些 方法 同 我 们 与 之 交互 的 方式 几乎 相同 , 因为 这 3 种 方法 都 有 一 个 map () 方 法 将 某 个 函数 
应 用 于 可 迭代 集合 数据 项 ,这 与 其 他 函数 式 编程 技术 非常 相称 。 并 发 线程 和 并 发 进程 因 性 质 不 同 ， 
性 能 也 有 所 不 同 。 


随 着 设计 逐步 完善 ， 日 志 分 析 应 用 程序 可 分 为 以 下 两 大 块 。 


口 底层 解析 : 几乎 所 有 日 志 分 析 应 用 程序 都 可 以 使 用 的 通用 解析 。 
D 高 层 分 析 应 用 : 针对 具体 应 用 程序 需求 的 过 滤 和 归 约 处 理 。 


底层 解析 可 以 分 解 为 如 下 4 个 阶段 。 


口 从 多 个 源 日 志文 件 读 取 所 有 行 数据 。 这 是 从 文件 名 到 行 序列 的 local_gzip() 映 射 。 

口 通过 文件 集合 中 每 一 行 日 志 条 目 创建 的 简单 命名 元 组 。 这 是 从 文本 行 到 Access 对 象 的 
access_iter() 有 映射 。 

口 解析 更 复杂 字段 (如 日 期 和 URL ) 的 详细 信息 。 这 是 从 Access 对 象 到 AccessDetails 
对 象 的 access_aqetail_ iter() 映 射 。 

口 从 日 志 中 排除 不 感 兴趣 的 路 径 名 。 也 可 以 将 其 视 作 只 接收 感 兴趣 的 路 径 名 。 与 其 说 是 映 
射 操 作 ， 它 更 像 是 过 滤器 ， 一 个 捆绑 成 path_filter () 函数 的 过 滤器 集合 。 


前 面 定义 了 一 个 完整 的 analysis () 函数 来 解析 和 分 析 给 定 的 日 志文 件 。 该 函数 使 用 高 层 的 
过 滤器 和 归 约 器 来 处 理 底层 的 解析 结果 ， 同 时 它 也 适用 于 使 用 通配符 的 文件 集合 。 


考虑 到 所 涉及 的 映射 个 数 ， 有 多 种 方法 能 将 该 问题 分 解 为 可 以 映射 到 线程 池 或 进程 池 的 任 
务 。 可 以 考虑 将 以 下 映射 方法 作为 设计 备 选 方案 。 
口 将 analysis () 函数 映射 至 各 个 文件 。 本 章 示例 统一 使 用 了 该 方法 。 
口 从 整个 analysis () 函数 中 重 构 出 1ocal_gzip() 函数 ,就 可 以 将 修改 后 的 analysis () 
函数 映射 到 local_gzip() 函数 的 结果 上 。 
口 从 整个 analysis () 国 数 中 重 构 出 access_iter (local_gzip (pattern) ) 国 数 ， 就 可 
以 将 修改 后 的 analysis () 函数 映射 到 可 迭代 的 Access 对 象 序列 上 。 
口 将 access_dqetail_iter(access-iter(local_gzip(pattern) ) ) 函数 重 构 为 单独 
的 近代 函数 ， 然 后 将 path_filter() 困 数 与 高 层 的 过 滤器 和 归 约 器 映射 到 可 迭代 的 
AccessDetail 对 象 序列 上 。 
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口 还 可 以 将 底层 解析 重 构 为 与 高 层 分 析 相 分 离 的 函数 ， 将 分 析 过 滤器 和 归 约 器 映射 到 底层 
解析 的 输出 上 。 


所 有 这 些 用 于 重 构 示例 应 用 程序 的 方法 都 相对 比较 简单 。 运 用 函数 式 编程 技术 的 好 处 是 整个 
过 程 中 的 每 个 部 分 都 可 以 定义 为 一 个 映射 。 这 在 考察 不 同 架 构 以 确定 最 佳 设 计时 非常 实用 。 


但 是 在 这 种 情况 下 ， 需 要 将 IO 处 理 尽量 分 配给 更 多 的 CPU 或 计算 核心 。 大 部 分 可 行 的 重 
构 方法 都 会 在 父 进程 中 执行 所 有 WO， 而 只 将 计算 部 分 分 配给 多 个 并 发 进程 ， 所 以 不 会 带 来 什么 
益处 ， 因 此 采用 尽 可 能 将 WO 分配 到 更 多 计算 核心 的 映射 方法 。 


最 小 化 进程 之 间 传 递 的 数据 量 通常 是 很 重要 的 。 在 这 个 例子 中 , 我 们 只 提供 给 每 个 工作 进程 
以 简短 的 文件 名 字符 串 。 相 比 压缩 每 个 日 志文 件 得 到 的 10MB 数据 详情 ， 生 成 的 counter 对 象 
要 小 得 多 。 通 过 剔除 只 出 现 一 次 的 数据 项 ， 或 者 限制 应 用 程序 只 保留 频率 最 高 的 20 项 ， 便 可 以 
进一步 减 小 每 个 counter 对 象 。 


可 以 自由 地 重新 组 织 这 个 应 用 程序 的 设计 并 不 意味 着 应 该 这 么 做 。 我 们 可 以 运行 一 些 基准 测 
试 实验 来 验证 猜测 ， 即 日 志文 件 的 解析 主要 是 由 读 取 文件 的 时 间 决 定 的 。 



















































































12.5 小结 
本 章 介 绍 了 支持 多 个 数据 并 发 处 理 的 两 种 方法 。 
口 使 用 multiprocessing 模块 : 具体 而 言 ， 是 Pool 类 和 适用 于 工作 池 的 各 种 映射 机 制 。 


口 使 用 COonCcuUTrent .futures 模块 : 具体 而 言 ， 丰 ProcessPoolExecutor 类 和 
ThreadPoolExecutor 类 。 这 些 类 也 支持 能 在 工作 线程 间 和 工作 进程 间 分 配 任 务 的 映射 
机 制 。 


本 章 还 提 到 了 一 些 似乎 不 太 适 合 函 数 式 编程 的 蔡 代 方案 ,模块 multiprocessing 有 其 他 许 
多 特性 , 但 并 不 太 适 合 函 数 式 设计 。 类 似 地 , 可 以 用 threadqing 模块 和 queue 模块 构建 多 线程 
应 用 程序 ， 但 它们 的 特性 也 使 其 不 适合 函数 式 程序 。 


下 一 章 将 介绍 operator 模块 , 可 用 该 模块 简化 一 些 算法 。 我 们 可 以 使 用 内 置 的 运算 符 函数 
而 不 是 定义 一 个 匿名 函数 。 下 一 章 还 将 介绍 一 些 制定 灵活 决策 的 技术 , 这 些 技术 还 允许 以 非 严 格 
顺序 对 表达 式 进 行 求 值 。 
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函数 式 编程 强调 惰性 求 值 和 按 非 严格 顺序 执行 运算 , 其 思想 是 允许 编译 器 或 运行 时 环境 以 尽 
量 少 的 工作 计算 结果 。Python 则 倾向 于 施加 严格 的 求 值 顺 序 ， 而 这 可 能 会 导致 低 效 。 


Python 中 的 if 、elif 和 else 语句 对 条 件 求 值 施 以 严格 的 执行 顺序 。 本 章 会 介绍 如 何 摆脱 
这 种 严格 的 求 值 顺序 ,并 在 有 限 范围 内 写 出 非 严格 的 条 件 语 句 。 尚 不 清楚 这 样 做 能 否 有 帮助 , 但 
它 展示 了 如 何以 更 函数 式 的 方法 表示 算法 。 


前 面 介绍 了 一 些 高 阶 函数 。 在 某 些 情况 下 , 可 以 使 用 这 些 高 阶 函 数 将 一 些 复杂 的 函数 应 用 于 
数据 集合 ， 而 在 其 他 一 些 情况 下 ， 可 以 使 用 简单 函数 处 理 数据 集合 。 


事实 上 ， 在 许多 情况 下 可 以 编写 小 型 匿名 函数 对 象 ， 以 便 将 一 个 Python 运算 符 应 用 于 某 个 
函数 ， 例 如 可 以 使 用 以 下 代码 定义 prod () 函数 : 

from typing import Iterable 

from functools import reduce 

def prod(data: Iterable[int]) -> int: 

return reduce(lambda x, y: x*y, data, 1) 

相 较 于 简单 的 乘法 ， 使 用 参数 1ampda x, y: x*y 似乎 有 些 累 袭 ， 毕 竞 我 们 只 想 使 用 乘法 
运算 符 (* )。 能 和 否 简化 语法 呢 ? 答案 是 肯定 的 ， 因 为 operator 模块 提供 了 内 置 运算 符 的 定义 。 
在 示例 中 可 以 用 operator .mul 代替 匿名 函数 对 象 。 


本 章 将 讨论 以 下 主题 。 


口 如 何 实现 非 严 格 求 值 。 介 绍 的 工具 很 有 用 ， 可 以 优化 性 能 。 

口 operator 模块 ， 以 及 它 是 如 何 为 创建 高 阶 函 数 实施 简化 和 明晰 化 的 。 
口 星 号 映射 ， 即 用 E(*args ) 提供 多 参数 的 映射 。 

口 一 些 更 高 级 的 partial() 和 reduece() 技 术 。 
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13.1 ”条件 表达 式 求 值 


Python 对 表达 式 执 行 严格 排序 ， 其 中 值得 注意 的 例外 情况 是 短路 运算 符 and 和 or。 对 语句 
的 求 值 也 有 严格 的 顺序 要 求 ， 这 使 得 难以 对 其 进行 优化 ， 因 为 可 能 会 破坏 严格 的 求 值 顺序 。 


条 件 表 达 式 的 求 值 让 我 们 可 以 尝试 非 严格 语句 执行 顺序 。Python 中 的 if 、elif 和 else 语 
名 会 严格 按照 从 头 至 尾 的 顺序 进行 求 值 。 理 想 情 况 下 ， 一 门 可 优化 的 语言 可 能 会 放宽 这 条 规则 ， 
这 样 编译 吉 就 可 以 发 现 更 快 的 运算 顺序 来 求解 条 件 表达 式 了 , 这 让 我 们 可 以 编写 出 对 读者 来 说 顺 
序 合理 的 表达 式 ， 并 让 编译 器 能 找到 更 快 的 求 值 顺序 。 

由 于 缺少 优化 编译 器 ， 非 严格 执行 顺序 的 概念 对 Python 来 说 有 点 牵强 。 尽 管 如 此 ， 确 有 其 
他 办 法 可 以 将 条 件 语 句 表示 为 函数 的 求 值 而 非 执 行 命令 式 语句 ， 以 此 重 排 运行 时 语句 。 

Python 具有 if 和 else 条 件 表达 式 。 运算 符 if-else 是 一 个 短路 运算 符 。 这 会 带 来 一 些 很 
细微 的 优化 ， 因 为 两 个 外 部 条 件 中 只 有 一 个 会 基于 内 部 条 件 的 真实 性 进行 求 值 。 当 写 下 x :if c 
elsey 时 ， 只 有 在 c 为 True 时 才 会 求解 表达 式 x。 此 外 ， 表 达 式 y 也 只 有 在 c 为 False 时 才 
会 求 值 。 这 是 一 个 很 细微 的 优化 ， 但 仍 严格 执行 运算 顺序 。 

该 表达 式 对 于 简单 条 件 来 说 很 有 用 ， 然 而 当 有 多 个 条 件 时 ， 它 会 变 得 非常 复杂 ， 需 要 小 心 恤 
疡 地 般 套 子 表达 式 ， 其 至 最 后 可 能 会 得 到 星 溪 难 懂 的 表达 式 ， 如 下 所 示 : 


(x if n==1 else (y if n==2 else 2z)) 
上 述 表 达 式 只 会 对 x、y 和 z 中 的 一 个 进行 求 值 ， 具 体 取决 于 n 的 值 。 


如 果 研 究 if 语句 , 会 发 现 可 以 用 一 些 数据 结构 模拟 出 if 语句 的 效果 。 其 中 一 种 技术 是 使 用 
字典 的 键 和 匿名 函数 对 象 来 创建 条 件 和 值 的 一 组 映射 。 用 表达 式 表示 阶乘 函数 的 一 种 方法 如 下 ; 


def fact(n: int) ->int: 







































































f= { 
ns: 0 :Lambda nl: 1 
Ty Es lameda. 1; 
i sa. 2 Lambda Ts 2 
n> 2: lambda n: fact(n-1)*n 
] 


} [True 
return f(n) 


该 表达 式 会 将 传统 的 if 、elif 和 else 语句 序列 重 写 为 单个 表达 式 。 为 了 更 清晰 地 展示 其 
内 部 机 制 ， 将 其 分 为 以 下 两 个 步 又。 


第 一 步 对 各 个 条 件 进行 求 值 。 如 果 其 中 一 个 给 定 条 件 为 rrue， 则 其 余 条 件 都 为 False。 生 
成 的 字典 将 包含 两 项 : 一 个 键 为 True 的 匿名 困 数 对 象 和 一 个 键 为 False 的 匿名 男 数 对 象 。 我 
们 会 选取 键 为 True 的 项 并 将 其 赋 给 变量 f。 


该 映射 过 程 中 使 用 了 匿名 函数 作为 键 值 , 这 样 在 构建 字典 时 并 不 会 对 表达 式 进行 求 值 。 我们 
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希望 字典 选取 其 中 一 个 匿名 函数 ， 并 且 匿 名 函数 的 值 便 是 整个 函数 的 结果 。 对 于 输入 的 参数 n， 
return 语句 求解 了 一 个 条 件 为 True 的 匿名 函数 f。 


13.1.1 使 用 非 严 格 字典 规则 
































复 键 值 中 的 哪 一 个 ， 但 只 要 设计 的 算法 是 正确 的 ， 这 一 点 便 无 关 紧要 。 


典型 结果 如 下 所 示 。 最 后 一 个 值 会 替换 任何 先前 的 值 。 但 在 Python 3.6 之 前 ， 无 法 保证 这 种 
情况 一 定 会 发 生 。 

mt 

人 

在 这 种 情况 下 , 无 须 在意 需 要 保留 哪 一 个 重复 键 。 下 面 是 max () 函数 的 一 个 简化 版 本 , 它 简 
单 地 选取 了 两 个 值 中 较 大 的 那个 。 


def non_strict max(a, b): 
f) fae bs Lanmbdeas a 
b >= a: lambda: pb} [True] 
return f() 
对 于 a == b 的 情况 ， 字 上 典 中 的 两 项 都 会 得 到 条 件 为 True 的 键 , 但 其 中 只 有 一 个 会 保留 下 
来 。 由 于 这 两 个 结果 一 样 ， 因 此 保留 哪个 或 将 哪个 视 为 重复 并 进行 覆盖 并 不 重要 。 
请 注意 ,该 函数 的 正规 类 型 提示 非常 复杂 。 进 行 比较 的 项 必须 是 可 排序 的 ， 即 它们 必须 将 运 
算 符 排序 。 下 面 定 义 一 个 适用 于 可 排序 对 象 概念 的 类 型 。 


from abc import ABCMeta, abstractmethod 
from typing import TypeVar, Any 























class Rankable (metaclass=ABCMeta): 
Qabstractmethod 
def __lt__(self, other: Any) -> bool: ... 
@abstractmethod 
def _ gt __(self, other: Any) -> bool: ... 
Qabstractmethod 
def __ le (self, other: Any) -> bool: ... 
@abstractmethod 
def _ ge __(self, other: Any) -> bool: ... 





RT = TypeVar('RT', bound=Rankable) 

类 Rankable 的 定义 是 一 个 抽象 类 。 针 对 某 些 有 用 的 函数 定义 ， 这 个 类 借助 apc 模块 来 将 
类 定义 中 的 抽象 特性 具象 化 。 装饰 器 @abstractmethod 用 于 确定 任何 具体 日 实用 的 子 类 必须 定 
义 的 方法 函数 。 
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之 后 可 以 将 non_strict_max() 函数 的 参数 类 型 和 返回 值 类 型 绑 定 为 类 型 变量 RT。 包含 类 
型 提示 的 定义 如 下 所 示 ( 此 处 省 略 了 函数 主体 ， 上 文 已 经 给 出 了 ): 

def non_strict_max(a: RT, b: RT) -> RT: 

这 里 前 明了 接收 的 两 个 参数 a 和 ob 应 是 可 排序 的 类 型 ， 并 被 指定 为 了 RT 类 型 。 返 回 值 的 可 
排序 类 型 相同 。 这 样 就 厘清 了 max () 的 基本 语义 ， 即 参数 的 类 型 必须 一 致 , 返回 值 的 类 型 也 和 人参 
数 的 类 型 相同 。 

















13.1.2 ”过 滤 mrue 条 件 表达 式 


确定 哪个 表达 式 的 结果 为 True 有 多 种 方法 。 前 面 的 示例 将 键 加 载 到 了 字典 中 。 这 种 字典 加 
载 方法 只 会 保留 一 个 键 为 True 的 值 。 


针对 这 个 模型 ， 使 用 filter () 函数 编写 的 另 一 种 变 体 如 下 所 示 : 


from operator import itemgetter 
def semifact (n: int) -> int: 
alternatives = [ 
(i = "07 TarnmbBaa 717 1); 
三 三 
se D2 Tambaa 和 有 在 
> 2, lambda n: Semifact(n-2)x*DTm) 




















(n 
(n 
(n 


] 
_, f = next(filter(itemgetter(0), alternatives)) 
return f(n) 


这 样 就 将 所 有 备 选 方案 定义 为 条 件 和 函数 对 的 一 组 序列 , 其 中 每 一 项 都 作为 一 个 条 件 , 且 其 
基于 输入 和 能 生成 输出 结果 的 匿名 函数 。 变 量 赋值 语句 中 还 可 以 包含 一 个 类 型 提示 ， 如 下 所 示 : 

alternatives: List[Tuple[lbool, Callable[[int], int]]] = [ 

etc, 

] 

这 个 列表 实际 上 代表 的 是 4 个 二 元 组 的 同一 集合 。 该 定义 阐明 了 其 中 的 元 组 列表 包含 一 个 布 
尔 值 和 一 个 可 调用 函数 。 

当 使 用 itemgetter (0) 参 数 来 应 用 filter () 函数 时 ， 我 们 会 选取 元 组 第 0 项 值 为 True 
的 对 。 对 于 这 些 值 为 True 的 对 ， 使 用 next () 方 法 从 filter () 函数 创建 的 可 迭代 对 象 中 提取 
第 一 项 。 选 取 的 条 件 值 赋 给 _ 变 量 ， 选 取 的 函数 则 赋 给 三 变 量 。 可 以 忽略 条 件 值 ( 它 为 True )， 
而 只 对 返回 的 £() 函数 进行 求 值 。 


前 面 的 示例 ， 使 用 匿名 函数 将 函数 的 求 值 延迟 到 了 条 件 求 值 之 后 。 
其 中 的 semi fact () 函数 也 称 双 阶乘 "。 半 阶乘 的 定义 和 阶乘 类 似 ， 主 要 的 区 别 在 于 半 阶 乘 
































四 或 “ 半 阶 乘 "。- 译 者 注 
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不 是 所 有 数字 的 乘积 ， 而 是 交 蔡 数字 的 乘积 。 例 如 下 面 两 个 公式 : 
口 34=5x3x1 
口 74=7x5x3x1 





13.1.3 “寻找 匹配 模式 


上 述 这 种 创建 多 个 条 件 集 合 的 技术 也 可 以 配合 正则 表达 式 使 用 。 回想 一 下 , 模式 的 match () 
方法 或 search () 方 法 会 返回 一 个 匹配 对 象 或 者 None 值 。 可 以 在 程序 中 利用 这 一 点 , 如 下 所 示 : 


import re 
pl = re.compile(r"(some) pattern") 
p2 = re.compile(r"a (different) pattern") 








from typing import Optional, Match 
def matcher (text: str) -> Optional [Match[str]]: 
patterns = [pl, p2] 
matching = (p.search(text) for p in patterns) 
ti 
good = next (filter (None, matching)) 
return good 
except StopIteration: 
pass 


上 面 定义 了 两 种 模式 , 并 将 它们 应 用 于 给 定 的 文本 块 。 每 个 模式 都 有 一 个 用 () 标记 的 子 模式 
来 作为 模式 匹配 组 。 


函数 matcher () 会 构建 一 系列 可 选 模式 。 在 本 例 中 ， 它 是 一 组 简单 文本 对 的 模式 。 我 们 用 
生成 器 表达 式 将 每 个 模式 中 的 search () 方 法 应 用 于 所 提供 的 文本 。 由 于 生成 器 表达 式 是 惰性 求 
值 的 ， 因 此 它 不 会 即刻 执行 一 长 串 连续 的 模式 匹配 ， 而 会 先 使 用 已 得 到 的 结果 。 


以 None 作为 第 一 个 参数 的 filter () 函数 会 从 数据 序列 中 去 除 所 有 的 None 值 ,filter (None，S) 
得 到 的 值 与 filter (lambda item: item is not None，S) 得 到 的 值 相 同 。 
































函数 next () 会 从 函数 filter () 返 回 的 可 迭代 结果 中 获取 第 一 个 非 空 值 。 如 果 filter() 
函数 没有 返回 任何 结果 ， 则 表示 没有 与 之 匹配 的 模式 。 在 这 种 情况 下 ， 异常 值 转换 为 了 None 结 | 
果 。 由 于 没有 与 给 定 文 本 匹配 的 模式 ， 因 此 引发 一 个 自 定义 的 异常 或 许 是 明智 的 做 法 。 


与 先前 的 示例 一 样 , 这 里 展示 了 如 何 对 多 个 布尔 条 件 进 行 求 值 并 从 中 选取 一 个 真 值 。 由 于 输 
入 的 是 一 个 模式 序列 ， 因 此 不 同 函数 的 求 值 顺 序 是 定义 好 的 , 并 且 严 格 按照 顺序 执行 。 尽管 无 法 
摆脱 Python 的 严格 求 值 顺序 ,但 是 一 旦 找到 某 个 匹配 的 模式 , 便 可 以 立即 退出 函数 来 控制 求 值 
的 成 本 。 
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13.2 ”使 用 operator 模块 代替 匿名 函数 


在 使 用 max() 、min() 和 sorted() 这 些 i 用 到 了 一 个 可 选 的 参数 key=。 作 为 参数 
RS 行为 。 在 许多 情况 下 ， 可 使 用 简单 的 匿名 函数 从 元 组 中 选取 数据 项 ， 
见 以 下 两 个 典型 示例 : 


from typing import Callable, Sequence, TypeVar 

T_ = TypeVar("T_") 

fst: Callable[[Sequencel[T_]], 

snd: Callable[ [Sequence[T_]], 

它们 与 其 他 一 些 函 数 式 编程 语言 中 的 内 置 函数 相 匹配 , 用 于 选取 元 组 的 第 一 项 或 第 二 项 。 这 
里 使 用 了 类 型 提示 来 避免 发 生 其 他 类 型 的 转换 ， 即 把 序列 中 项 的 类 型 绑 定 为 类 型 变量 T_， 以 此 
表示 困 数 返回 结果 的 类 型 。 


其 实 无 须 编 写 这 样 的 函数 ， 可 以 使 用 operator 模块 中 itemgettezr () 的 函数 版 本 。 它 们 
都 是 高 阶 函数 ， 即 表达 式 itemgetter (0) 会 创建 一 个 函数 。 随后 可 以 应 用 该 函数 来 选取 集合 中 
的 某 个 对 象 ， 如 下 所 示 : 


>>> from operator import itemgetter 
>>> itemgetter(0) ([1, 2, 3]) 
a 


下 面 在 一 个 更 复杂 的 元 组 列表 数据 结构 中 使 用 该 函数 。 示 例 数据 如 下 : 


year_cheese = [ 
(0000 Oe) MZO0P, ,3012 "(2O02. BO) (2003 0.30.606).3 
(2004 31.33), (2005, 32%.62); (2006; 32673), (200977 3355)5 
(2008 B284)} (2009% ' 3302); (2010, 32592) 








lambda x: x[0] 
lambda x: x[1] 


| 
| 





















































] 
以 上 数据 代表 每 年 的 奶酪 消耗 量 。 第 2 章 和 第 9 章 用 过 这 个 示例 。 
可 以 使 用 以 下 命令 来 确定 最 小 奶 酷 量 的 数据 点 : 


>>> min(year_cheese, key=snd) 
(2000, 29.87) 


模块 operator t 了 一 种 从 元 组 中 获取 特定 元 素 的 替代 方法 。 这 使 我 们 能 免 于 使 用 匿名 函 
数 变量 来 选取 其 中 第 
如 以 下 命令 所 示 ， 无须 自 定 义 fst () 函数 和 snd () 函数 ,而 可 以 使 用 参数 itemgetter (0) 


和 itemgetter(1)。 














>>> from operator import itemgetter 
>>> max (year_cheese, key=itemgetter(1)) 
(2007 33%53 
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痕 数 itemgetter () 依 赖 一 个 特殊 方法 ”getitem _(), 它 会 根据 数据 项 在 元 组 (或 列表 ) 
中 的 索引 位 置 来 获取 其 值 。 


使 用 高 阶 函数 获取 命名 属性 


下 面 来 看 稍微 不 同 的 数据 集合 。 假 设 这 里 使 用 的 是 NamedTuple 的 子 类 而 非 匿名 元 组 对 象 。 
首先 定义 一 个 类 ， 它 为 元 组 中 的 两 项 提供 了 以 下 类 型 提示 。 


from typing import NamedTuple 
class YearCheese (NamedTuple): 
year: int 
cheese: float 


随后 将 基础 数据 year_cheese 转换 为 合适 的 命名 元 组 。 转 换 过 程 如 下 所 示 : 


>>> year_cheese 2 = list(YearCheese(*yc) for yc in year_cheese) 








>>> year_cheese 2 


[YearCheese (year=2000, heese=29.87),， 


YearCheese (year=2009, 


year=2010, 


总 
YearCheese (year=2001，cheese=30.12) ， 
YearCheese (year=2002，cheese=30.6)， 
YearCheese (year=2003，cheese=30.66) ， 
YearCheese (year=2004，cheese=31.33) ， 
YearCheese (year=2005，cheese=32.62)， 
YearCheese(year=2006, cheese=32.73),， 
YearCheese(year=2007, cheese=33.5),， 
YearCheese(year=2008, cheese=32.84),， 

( e: 

( 3 








) 
heese=33 .02) 
) 


YearCheese heese=32.92 


有 两 种 方法 来 确定 奶酪 消耗 量 的 范围 , 可 以 如 下 所 示 使 用 attrgetter () 函数 , 或 者 使 用 匿 
名 函数 形式 o 

>>> from operator import attrgetter 

>>> min(year_cheese 2, key=attrgetter('cheese')) 

YearCheese(year=2000, cheese=29.87) 


>>> max(year_cheese_ 2, key=lambda x: x.cheese) 
YearCheese(year=2007, cheese=33.5) 


这 里 的 重点 是 ， 对 于 匿名 函数 对 象 ， 属 性 名 是 代码 中 的 一 个 标记 ， 而 对 于 attrgetter () 
函数 , 属性 名 是 一 个 字符 串 。 使 用 字符 串 的 话 , 属性 名 会 是 一 个 在 有 本 运行 期 间 可 以 修改 的 参数 ， 
这 会 使 程序 更 为 灵活 。 






































蔬 








13.3 ”运算 符 的 星 号 映射 


函数 itertools.starmap() 是 高 阶 函 数 map () 的 一 个 变 体 。 也 数 map () 会 将 某 个 函数 应 
用 于 序列 中 的 每 一 项 。 函 数 starmap (E，S) 则 假定 序列 s 中 的 每 一 项 i 都 是 一 个 元 组 ， 并 且 使 
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用 £(*i) 作 为 映射 。 每 个 元 组 中 数据 项 的 个 数 必须 与 给 定 函 数 中 的 参数 个 数 相 匹 配 。 
示例 如 下 : 


>>> d = starmap (pow, zip_longest([], range(4), fillvalue=60)) 





函数 itertools .zip_longest () 会 创建 如 下 一 组 序列 对 : 

[to0s -Hs tH 1) OU Bs 80 73} 

该 函数 之 所 以 会 得 到 此 结果 是 因为 我 们 提供 了 两 个 序列 : 方 括号 [] 和 参数 range (4)。 当 较 
得 序列 中 的 数据 处 理 完 后 ， 会 使 用 fillvalue 参数 。 

当 使 用 starmap () 函数 时 ， 每 一 个 元 组 对 都 会 作为 给 定 函 数 的 参数 。 本 例 中 使 用 的 是 
obpetator .bow() 图 数 ， 即 ** 运 算 符 。 该 表达 式 计 算 了 [60**0，60x*x1，60x*x2，60xx3] 的 值 。 
变量 da 的 值 是 [1，60，3600，216000]。 


函数 starmap () 接收 元 组 序列 。map (f，x，y) 函数 和 starmap (f，zip (x，y) ) 函数 大 
致 等 同 。 


上 述 示例 中 itertools.starmap () 函数 的 延续 如 下 所 示 : 

SS DD, (BB 9 WHA) 

>>> pi = sum(starmap (truediv, zip(p, qd))) 

上 面 打 包 了 分 别 含 4 个 值 的 两 个 序列 。 变 量 a 的 值 由 上 述 的 starmap () 计 算得 到 ， 变 量 p 
代表 一 个 简单 的 文本 项 列表 ， 我 们 将 这 两 个 变量 打包 成 对 。starmap () 函数 与 operator. 
truediv () 函数 配合 使 用 ， 后 者 即 / 运 算 符 。 



































3 8 29 44 
ot T+ 2 + 39 
60 60 60° 60 


一 个 更 简化 的 版 本 如 下 所 示 ， 它 使 用 了 map (f，x，y) 函数 代替 starmap (f，zip (x,y)) 


>>> pi = sum(map (truediv, p, qd)) 


这 样 就 能 对 一 组 分 数 序 列 进行 求 和 了 ， 其 结果 约 为 ，x ~ 











1 
在 本 例 中 ,基数 为 60 的 分 数 转换 为 了 基数 为 10 的 分 数 。 变 量 a 中 的 值 序列 会 作为 合适 的 分 
母 。 也 可 以 用 类 似 于 前 面 介绍 的 技术 来 转换 其 他 基数 。 


有 些 近似 可 能 涉及 无 穷 项 的 求 和 ( 或 乘积 )。 可 以 用 类 似 于 前 面 介绍 的 技术 对 其 进行 求 值 。 
可 以 利用 itertools 模块 中 的 count () 函数 来 近似 生成 任意 数量 的 项 。 随 后 可 以 使 用 
takewhile() 函数 只 累计 那些 有 助 于 提高 解 的 精确 度 的 值 。 从 另 一 个 角度 来 看 ，takewhile () 
生成 了 一 个 显著 值 的 数据 流 ， 并 且 会 在 遇 到 非 显著 值 的 时 候 停止 处 理 。 
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计算 一 个 潜在 无 穷 序列 之 和 的 示例 如 下 : 


>>> from itertools import count, takewhile 

>>> num = map (fact, count()) 

>>> den = map(semifact, (2*n+1 for n in count())) 
>>> terms = takewhilel( 

... lambda t: t > 1E-10, map(truediv, num, den)) 
>>> 2*sum(terms) 

3T41592653.3011587 


变量 num 是 一 个 潜在 的 无 穷 分 子 序 列 , 上 且 它 基于 前 面 示例 中 定义 的 阶乘 函数 。 函 数 count () 
返回 升序 的 值 ， 即 从 零 开始 无 限 递增 。 变 量 aen 是 一 个 潜在 的 无 穷 分 母 序 列 ， 且 它 基 于 半 阶 乘 
函数 。 前 面 的 示例 中 定义 过 这 个 函数 ， 它 也 使 用 count () 来 创建 一 个 潜在 的 无 穷 值 序列 。 
通过 map ( ) 函数 将 operators .truediv() 函数 ( 即 / 运 算 符 ) 应 用 于 每 一 对 值 来 创建 数据 
项 。 将 其 封装 在 takewhile() 国 数 中 ， 以 便 只 在 数据 值 大 于 某 个 相对 较 小 的 值 时 (本 例 中 为 
10… )， 才 从 map () 的 输出 中 提取 该 项 数据 。 


该 定义 的 级 数 展开 式 如 下 所 示 : 

















— nl 
4arctan(]) = 区 2 Qari 
这 个 级 数 展开 式 的 一 个 有 趣 的 变 体 是 将 opetrator .truediv() 国 数 奉 换 为 fractions . 
Fraction() 函数 ， 这 会 创建 不 受 浮 点 数 近似 限制 的 精确 有 理 值 。 


可 以 使 用 operators 模块 中 的 所 有 Python 内 置 运 算 符 , 其 中 包括 所 有 位 处 理 运算 符 以 及 比 
较 运 算 符 。 在 某 些 情况 下 ， 相 比 形 式 复杂 的 用 函数 表示 运算 符 的 starmap () 函数 ， 生 成 需 表 达 
式 更 为 简洁 明了 。 

模块 operator 的 作用 是 简化 匿名 函数 ,可 以 使 用 operator.add 方法 代替 add=lambda a， 
b: ab 方法。 如 果 表 达 式 比 单个 运算 符 复 杂 ， 那 么 唯一 的 方法 便 是 编写 匿名 函数 。 
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下 面 再 介绍 一 种 使 用 运算 符 定 义 的 方法 ， 可 以 配合 内 置 的 functools .redquce () 函数 一 起 
使 用 ， 例 如 sum() 函数 定义 如 下 : 

sum = functools.partial (functools.reduce, operator.add) 

这 会 根据 提供 的 第 一 个 参数 创建 一 个 部 分 求 值 的 reduce () 函数 版 本 。 在 本 例 中 ， 该 参数 是 + 
运算 符 ， 并且 由 operator .ada() 函数 实现 。 


如 果 需 要 一 个 类 似 的 函数 来 计算 乘积 ， 那 么 可 以 如 下 定义 : 
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prod = functools.partial (functools.reduce, operator.mul) 

这 里 遵循 了 前 面 例子 中 的 模式 ， 创 建 了 一 个 以 * 运 算 符 作为 第 一 个 参数 并 且 进 行 部 分 求 值 的 
reduce () 国 数 。 

尚 不 清楚 能 否 用 其 他 运算 符 来 实现 类 似 的 功能 。 我 们 可 能 会 找到 operator.concat () 函 
数 、operator.and() 国 数 和 operator.or1() 国 数 的 类 似 实现 。 














函数 and() 和 or() 就 是 按 位 的 & 和 | 运算 符 。 如 果 需 要 正确 使 用 布尔 运算 符 ， 那 
么 必须 使 用 all() 函 数 和 any() 函数 代替 reduce () 函数 。 


一 旦 有 了 prod() 函数 ， 便 意味 着 可 以 定义 阶乘 ， 如 下 所 示 : 


fact = lambda n: 1 if n < 2 else n*prod(range(1, n)) 


这 样 做 的 优点 是 代码 简洁 ， 因 为 实现 了 阶乘 的 单行 定义 。 它 还 具有 不 依赖 递归 的 优点 , 并 且 
避免 了 因为 栈 限制 而 出 现 的 任何 问题 。 
尚 不 清楚 与 Python 中 的 许多 替代 方案 相 比 ， 这 样 做 是 否 有 任何 明显 优势 。 从 partial () 孔 


数 、reduce() 函数 和 operator 模块 等 原 语 片段 构建 复杂 函数 的 概念 是 很 美妙 的 。 然 而 在 大 多 
数 情况 下 ，operator 模块 中 的 简单 函数 用 处 不 大 ， 而 我 们 总 希望 使 用 更 复杂 的 匿名 函数 。 


对 于 布尔 归 约 ,必须 使 用 内 置 的 any () 函数 和 all () 函数 ,它们 实现 了 一 种 短路 的 reduce () 
运算 。 它 们 不 是 高 阶 函 数 ， 而 且 必 须 配合 匿名 函数 或 已 定义 的 函数 使 用 。 






























































13.5 小结 


本 章 介 绍 了 if 、elif 和 else 语句 序列 的 不 同 实现 版 本 。 理 想 情况 下 ， 使 用 条 件 表 达 式 可 
以 执行 一 些 优化 操作 。 实 际 上 ， Python 本 身 不 会 进行 优化 ,因此 使 用 更 奇特 的 方法 来 处 理 条 件 表 
达 式 并 不 会 带 来 实质 性 的 益处 。 


本 章 还 介绍 了 如 何 使 用 operator 模块 中 的 高 阶 函 数 ， 例 如 max() 、min() 、sorteq() 和 
reauce () 等 。 使 用 运算 符 可 以 让 我 们 免 于 创建 许多 小 型 匿名 函数 。 
下 一 章 将 介绍 PyMonad 库 , 它 直 观 地 展现 了 Python 函数 式 编程 的 概念 。 由 于 Python 底层 是 
种 命令 式 编程 语言 ， 因 此 通常 无 须 使 用 单子 。 


与 状态 变量 的 赋值 相 比 , 有 些 算 法 用 单子 表示 会 更 清晰 。 届 时 会 展示 一 个 使 用 单子 简洁 地 表 
达 一 组 复杂 规则 的 示例 。 最 重要 的 是 ，operator 模块 展示 了 许多 函数 式 编程 技术 。 
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利用 单子 , 我 们 能 以 一 种 宽松 的 语言 形式 来 指定 表达 式 的 求 值 顺序 , 例如 可 以 使 用 单子 来 要 
求 表达 式 a+pb+c 严格 按照 从 左 到 右 的 顺序 进行 求 值 。 这 可 能 会 干扰 编译 器 优化 表达 式 求 值 的 能 
力 , 然而 有 时 有 必要 这 样 做 ， 例 如 希望 以 特定 的 顺序 读 写 文件 ， 此 时 单子 可 以 确保 按照 指定 的 顺 
序 执行 read () 函数 和 write() 函数 。 


语法 宽松 且 有 编译 器 优化 的 语言 因 单 子 指定 了 表达 式 的 求 值 顺序 而 获 益 。Python 在 很 大 程度 
上 是 语法 严格 且 不 含 优化 的 ， 因 此 对 单子 没有 实际 的 需求 。 


然而 , PyMonad 包 不 只 包含 单子 , 还 有 许多 具有 独特 实现 的 函数 式 编程 特性 。 在 某 些 情况 下 ， 
使 用 PyMonad 模块 编写 的 程序 比 仅 使 用 标准 库 模 块 编写 的 程序 更 加 简洁 明了 。 


本 章 将 介绍 以 下 内 容 : 


口 下 载 并 安装 PyMonad; 

口 柯 里 化 概念 以 及 如 何 将 其 运用 于 函数 式 复 合 ; 

口 用 于 创建 复合 函数 的 PyMonad* 运 算 符 ; 

口 函 子 和 使 用 更 通用 的 函数 柯 里 化 数据 项 的 技术 ; 
口 pind () 运算 使 用 >> 运 算 符 创建 有 序 单子 ; 

口 如 何 运 用 Pymonad 技术 构建 蒙特 卡 洛 模拟 。 










































































14.1 下 载 和 安装 


根据 Python 包 索 引 (PyPI ) 可 以 找到 PyMonad 包 。 使 用 pip 将 PyMonad 加 入 运行 环境 。 





访问 https://pypi.python.org/pypi/PyMonad 以 获取 更 多 信息 。 

对 于 macOS 和 Linux 开发 人 员 ， 命 令 pip install pymonad 可 能 需要 以 sudo 命令 为 前 
级 。 如 果 你 安装 的 是 个 人 版 的 Python， 那 么 无 须 使 用 sudao。 如 果 你 安装 的 是 系统 级 的 Python ， 
那么 需要 使 用 sudo。 在 执行 sudo pip install pymonad 这 样 的 命令 时 ， 系 统 会 提示 输入 密 
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码 ， 以 确保 你 拥有 执行 安装 所 需 的 管理 权限 。 对 于 Windows 开发 人 员 来 说 ,不 存在 sudo 命令 ， 
但 也 必须 拥有 足够 的 管理 权限 。 
安装 完 PyMonad 包 后 ， 可 以 使 用 以 下 命令 进行 确认 : 


>>> import pymonad 
>>> help (pymonad) 





该 命令 会 显示 docstring 模块 ， 确 认 已 正确 安装 PyMonad 包 。 


整个 项 目的 名 称 PyMonad 使 用 了 大 小 写 混合 的 形式 ,在 导入 已 安装 的 Python 包 名 “PyMonad” 
时 ,使 用 的 都 是 小 写 。 目 前 , PyMonad 包 中 还 没有 类 型 提示 。 通 用 化 的 本 质 要 求 尽量 使 用 Typevar 
提示 来 描述 各 个 函数 的 签名 。 此 外 ,PyMonad 中 有 一 些 名 称 与 内 置 typing 模块 中 的 名 称 相 冲突 。 
于 需要 使 用 包 名 来 消除 由 名 称 覆 盖 引 起 的 歧义 ,因此 类 型 提示 的 语法 可 能 会 变 得 非常 复杂 。 本 
章 的 示例 将 忽略 类 型 提示 。 









































14.2 ”函数 式 复合 和 柯 里 化 


一 些 函 数 式 语言 的 工作 原理 是 将 多 参数 函数 语法 转化 为 单 参 数 函 数 集合 , 这 一 过 程 称 为 柯 里 
化 ， 它 是 以 逻辑 学 家 Haskell Curry 的 名 字 命 名 的 。Haskell Curry 从 早期 概念 中 发 展 出 了 该 理论 。 


柯 里 化 是 一 种 将 多 参数 函数 转化 为 单 参数 高 阶 函数 的 技术 。 例 如 函数 fx;y) 一 z， 对 于 给 定 的 
两 个 参数 x 和 y, 该 函数 会 返回 z 值 作为 结果 。 可 以 将 ftx;y) 柯 里 化 为 两 个 函数 :fi 一 fo0) 和 fs0y) 
一 z。 对 于 给 定 的 第 一 个 参数 值 x*， 求 解 函数 fi1() 会 返回 一 个 新 的 单 参数 函数 f(y)。 第 二 个 函数 
会 接收 第 二 个 参数 值 y， 并 返回 结果 z。 


可 以 在 Python 中 求解 一 个 柯 里 化 函数 : f_c (2) (3) 。 对 第 一 个 参数 值 2 使 用 柯 里 化 函数 ， 
创建 一 个 新 函数 。 随 后 对 第 二 个 参数 值 3 使 用 这 个 新 函数 。 

这 种 做 法 适用 于 任何 复杂 的 函数 。 如 果 从 函数 g(a, 5,c) 一 z 开 始 ,， 那么 可 以 将 其 柯 里 化 为 函 
数 g(aq) 一 ge(D) 一 ga(c) 一 z， 这 是 通过 递归 实现 的 。 首 先 ， 对 函数 go1(a) 求 值 会 返回 一 个 带 参 
数 b 和 cc 的 新 水 g'i1(5,c) 数 。 然 后 柯 里 化 这 个 返回 的 双 参 数 函 数 并 创建 函数 ge2(b) 一 ga(c)。 

可 以 用 g_c (1) (2) (3) 来 求解 一 个 复杂 的 柯 里 化 函数 。 这 种 语法 形式 过 于 庞大 , 因此 可 以 使 
用 一 些 语法 糖 来 将 g_c (1) (2) (3) 缩 减 为 g(1，2，3) 这 样 更 容易 接受 的 形式 。 

下 面 给 出 一 个 Python 中 的 具体 示例 。 例 如 有 一 个 形式 如 下 的 函数 : 


from pymonad import curry 

































































@curry 
def systolic bp(bmi, age, gender male, treatment): 
return ( 
68.15+0.58*bmi+0.65*age+0.94*gender_male+6.44*treatment 
) 
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这 是 一 个 简单 的 基于 多 元 回归 的 心脏 收缩 压 模 型 。 它 可 以 根据 体重 指数 ( BMI )、 年 龄 、 性 
别 (1 代表 男性 ) 和 既往 治疗 史 ( 1 代表 有 过 治疗 ) 来 预测 血压 。 有 关 该 模型 及 其 推导 过 程 的 更 
多 信息 ， 请 访问 : http://sphweb.bumc.bu.edu/otlt/MPH-Modules/BS/BS704_Multivariable/BS704_ 
Multivariable7.html。 





可 以 使 用 systolic_pp() 函数 处 理 所 有 4 个 参数 ， 如 下 所 示 : 


>>> systolic bp(25, 50, 1, 0) 
116.09 
>>> systolic bp(25, 50, 0, 1) 
121.59 





一 位 BMI 为 25, 有 旦 此 前 没有 接受 过 治疗 的 50 岁 男性 ， 其 血压 会 在 116 左右 。 第 二 个 示例 显 
示 了 一 位 与 之 类 似 但 接受 过 治疗 的 女性 ， 其 血压 可 能 在 121 左右 。 


由 于 使 用 了 ecurry 装饰 器 , 因此 可 以 得 到 与 函数 部 分 求 值 类 似 的 中 间 结 果 。 见 如 下 命令 片段 : 


>>> treated = systolic bp(25, 50, 0) 
>>> treated(0) 

115.15 

>>> treated(1) 

121.59 














上 述 示例 中 ， 通 过 对 systolic_pp(25，50，0) 方 法 进行 求 值 创建 了 一 个 柯 里 化 函数 ， 并 
将 其 赋 给 了 treateqd 变量 。 对 于 给 定 的 患者 ，BMI、 年 龄 和 性 别 的 值 通常 不 会 改变 。 现 在 可 以 
对 剩余 的 参数 使 用 新 的 treated 子 数 ， 根 据 患 者 的 病史 获取 不 同 的 血压 预测 值 。 


这 在 某 些 方面 类 似 于 functools .partial() 函数 ,重要 的 区 别 在 于 柯 里 化 创建 了 一 个 能 以 
多 种 方式 运作 的 函数 , 而 functools .partial () 函数 则 会 创建 一 个 更 具 针 对 性 的 函数 , 并 且 只 
能 用 于 专门 的 数值 集合 。 


创建 其 他 一 些 柯 里 化 函数 的 示例 如 下 : 


>>> g 七 = systolic bp(25, 50) 
>>> g_t(1, 0) 

116.09 

>35 0 1 

121.59 









































这 是 一 个 基于 初始 模型 且 区 分 性 别 的 函数 。 必 须 提供 性 别 和 过 往 治 疗 值 , 以便 从 模型 中 得 到 
最 终结 果 。 








14.2.1 使 用 柯 里 化 的 高 阶 子 数 


尽管 可 以 使 用 普通 函数 表现 柯 里 化 ,但 只 有 将 柯 里 化 用 于 高 阶 函 数 时 , 其 价值 才 会 真正 显现 。 
在 理想 情况 下 ，functools.redquce () 函数 是 可 柯 里 化 的 ， 因 此 可 以 如 下 操作 




















222 第 14 章 “PyMonad 库 





sum = zeduce (operator .add) 
prod = teduce (operator .mul) 





然而 这 样 做 并 不 起 作用 。 内 置 的 reduce () 函数 不 能 经 由 PyMonad 库 实 现 柯 里 化 , 因此 上 面 
的 例子 实际 上 无 法 正常 运作 。 但 是 ， 如 果 自 定义 了 reauce () 函数 ,那么 就 可 以 如 前 所 示 对 其 进 
行 柯 里 化 了 。 





下 面 是 一 个 自 定义 的 reduce () 函数 ， 可 以 如 前 所 述 使 用 它 : 


from collections.abc import Sequence 
from pymonad import curry 


@curry 
def myreduce (function, iterable or_ sequence): 
if isinstance(iterable or_sequence, Sequence): 
iterator= iter(iterable or_sequence) 
else: 
iterator= iterable_or_sequence 
s = next (iterator) 
for V in iterator: 
s = function(s,yv) 
return s 


函数 myreduce () 的 行为 和 内 置 的 reduce () 函数 类 似 。 函 数 myredquce () 适 用 于 可 迭代 对 
象 或 者 序列 对 象 。 对 于 给 定 序列 ， 可 以 创建 一 个 迭代 器 ， 而 对 于 给 定 的 可 迭代 对 象 ， 可 以 直接 使 
用 它 。 使 用 过 代 器 中 的 第 一 项 来 初始 化 结果 。 将 该 函数 应 用 于 进行 中 的 求 和 (或 乘积 ) 以 及 随后 
的 每 一 项 。 








还 可 以 封装 内 置 的 requce () 函数 来 创建 一 个 可 柯 里 化 的 版 本 。 只 需 两 行 代码 便 
可 以 实现 ， 这 留 给 读者 作为 练习 。 




















由 于 myrequce () 函数 是 一 个 柯 里 化 函数 ， 因 此 接 下 来 可 以 基于 该 高 阶 函 数 创建 郴 数 。 


>>> from operator import add 
>>> Sum = myreduce(add) 
>>> Sum([1,2,3]) 


>>> max = myreduce(lambda x,y: XifX>yYyelse y) 
>>> max([2,5,3]) 

















我 们 通过 应 用 于 ada 运算 符 的 柯 里 化 归 约 自 定 义 了 sum() 函数 ， 还 使 用 选取 两 个 值 中 较 大 
值 的 匿名 函数 对 象 自 定义 了 默认 的 max () 函数 。 


由 于 柯 里 化 关注 位 置 参 数 ， 因 此 无 法 以 这 种 方式 简单 地 创建 出 max ( ) 函数 的 更 通用 的 形式 。 


如 果 使 用 key= 关 键 字 参数 ， 那 么 为 了 实现 函数 式 编程 简洁 明了 的 整体 目标 ,会 在 技术 上 带 来 极 
大 的 复杂 性 。 
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为 了 创建 一 个 更 通用 的 max () 函数 ， 需 要 摆脱 函数 max() 、min() 和 sorted() 等 依赖 的 
key= 关 键 字 参数 范式 。 必 须 像 filter () 、map () 和 reduce() 函数 那样 以 高 阶 函数 作为 第 一 个 
参数 。 还 可 以 创建 一 个 更 统一 的 高 阶 柯 里 化 函数 库 ， 这 些 函 数 将 完全 依赖 位 置 参数 。 首 先 以 高 阶 
函数 为 参数 ,这 样 自 定义 的 柯 里 化 max (function，iterable) 方 法 就 能 遵循 map() 、filter () 
和 functools.requce() 等 图 数 设置 的 模式 了 。 


























14.2.2” 避 易 就 难 的 柯 里 化 


可 以 不 用 PyMonad 库 的 装饰 器 而 手动 创建 柯 里 化 函数 。 通 过 函数 定义 的 形式 实现 的 一 种 方 
法 如 下 所 示 : 


def f(x, *args): 
def fli(y, *args): 
def f2'\(z): 
return (x+y)*z 
if args: 
return f2(*args) 
return 工 2 
if arge: 
return f1(*args) 
return f1 





这 里 将 函数 ftxwy,z) 一 (xty) 疙 柯 里 化 为 了 聘 数 E(x) ， 0 一 个 函数 ， 从 概念 上 讲 就 是 
fx) 一 0, 3。 然后 柯 里 化 中 间 函 数 并 创建 了 函数 fl (y) 和 £2(z),， 即 f0%,2) 一 (fp0) 一 (2))。 
对 E(x) 函数 进行 求 值 会 得 到 一 个 新 图 数 EL。 如 果 提 供 了 其 他 参数 ， 则 这 些 参数 会 传递 给 
函数 用 于 求 值 其 结果 可 Re 也 可 以 是 男 一 个 函数 。 


显然 , 这 种 通过 手动 扩展 实现 柯 里 化 的 做 法 很 容易 出 错 , 并 不 是 处 理 函 数 的 实用 方法 , 但 是 
可 以 用 它 来 说 明 柯 里 化 的 含义 以 及 它 在 Python 中 的 实现 方式 。 
































14.3 ”函数 式 复合 和 PyMonad* 运 算 符 
柯 里 化 函数 的 一 个 重要 价值 是 可 以 通过 函数 式 复合 来 组 合 函 数 。 第 5 章 和 第 11 章 介绍 了 也 
数 式 复合 


创建 了 一 个 柯 里 化 函数 后 , 就 可 以 更 轻松 地 通过 函数 式 复合 来 创建 新 的 、 更 复杂 的 柯 里 化 函 
数 了 。 例 如 PyMonad 包 定义 了 * 运 算 符 来 复合 两 个 函数 。 为 了 解释 这 个 运算 符 的 工作 原理 ， 下 面 
定义 两 个 用 于 复合 的 柯 里 化 函数 。 首 先 定 义 一 个 用 于 计算 乘积 的 函数 ,然后 定义 一 个 用 于 计算 特 
定 范围 值 的 函数 。 


用 于 计算 乘积 的 第 一 个 函数 如 下 所 示 : 
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Import “ operator 
prod = myreduce (operator .mul) 





该 函数 基于 此 前 定义 的 柯 里 化 函数 myreduce () 。 它 使 用 operator .mul () 函数 来 计算 一 
个 可 迭代 对 象 的 乘法 归 约 ， 换 言 之 ， 将 乘积 1 的 乘法 归 约 。 


用 于 生成 一 系列 数值 的 第 二 个 柯 里 化 函数 如 下 所 示 : 


@curry 
def alt_range(n): 
EE 刘 : 
return range(1, 2) # Only the value [1] 
ELTf i $2 = 0 
return range(2, n+l1, 2) 
else: 











return range(1, n+l1, 2) 











函数 alt_range() 的 结果 可 以 是 偶数 也 可 以 是 奇数 ,如 果 n 是 奇数 , 则 结果 只 包含 到 nm( 含 ) 


的 奇数 值 ; 如 果 n 是 偶数 ， 则 结果 只 包含 到 n 的 偶数 值 。 这 种 序列 对 于 实现 半 阶 乘 函 数 或 双 阶 
乘 函 数 nl! 尤 为 重要 。 





下 面 介绍 如 何 将 prod() 函数 和 alt_range() 函数 组 合成 一 个 新 的 柯 里 化 函数 。 
>>> semi_fact = prod * alt_range 


>>> semi_fact (9) 
945 


这 里 PyMonad 的 * 运 算 符 将 两 个 函数 组 合成 了 复合 函数 semi_fact。 它 对 参数 使 用 函数 
alt_range()， 随 后 prod() 函数 会 使 用 alt_range 也 数 的 结果 。 
使 用 PyMonad 的 * 运 算 符 等 同 于 创建 一 个 新 的 匿名 函数 对 象 。 


semi_fact = lambda x: prod(alt_range (x)). 

















与 创建 一 个 新 的 匿名 函数 对 象 相 比 ， 柯 里 化 函数 的 复合 涉及 的 语法 要 少 一 些 。 
理想 情况 下 ， 我 们 和 希望 能 如 下 所 示 使 用 函数 式 复 合 和 柯 里 化 函数 


sumwhile = Sum * takewhile(lambda x: x > 1E-7) 








这 样 就 可 以 定义 一 个 适用 于 无 穷 序 列 的 sum() 函数 版 本 , 并 且 在 满足 阔 值 条 件 时 停止 生成 新 
的 值 。 然而 由 于 PyMonad 库 处 理 无 穷 迭 代 对 象 的 能 力 似 乎 不 及 处 理 内 部 List 对 象 的 能 力 , 因此 
这 种 做 法 实际 上 不 起 作用 。 








14.4” 函 子 和 应 用 型 函 子 


函 子 指 的 是 简单 数据 的 函数 式 表 示 。 数 字 3 .14 的 函 子 版 本 是 一 个 返回 该 值 的 零 参数 函数 。 
示例 如 下 : 
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>>> pi 
>>> pil( 
3 .14 


= lambda: 3.14 
) 


这 样 就 创建 了 一 个 零 参 数 匿名 函数 对 象 并 返回 了 一 个 简单 的 值 。 





当 对 函 子 


应 用 柯 里 化 函数 时 ,会 创建 一 个 新 的 柯 里 化 函 子 。 可 以 将 这 一 概念 概括 为 : 通过 使 


函数 来 表示 参数 、 值 和 函数 本 身 ， 可 以 将 函数 应 用 于 参数 来 获取 值 。 


一 旦 程序 中 的 所 有 内 容 都 是 函数 , 那么 所 有 运算 都 只 是 函数 式 复 合 模型 的 一 个 变 体 。 柯 里 化 
函数 的 参数 和 结果 都 可 以 是 浮子 。 有 时 可 以 对 functor 对 象 使 用 getvalue () 方 法 ， 以 获得 可 
用 于 非 柯 里 化 代码 且 适 用 于 Python 的 简单 类 型 。 


由 于 此 时 编程 是 基于 函数 式 复合 的 ， ee getValue () 方 法 请 求 一 个 值 之 前 , 无 





























须 进 行 任何 计算 。 程 序 不 会 执行 大 量 中 间 计 算 ， 而 会 定义 复杂 的 中 间 对 象 以 根据 请 求生 成 所 需 的 
值 。 原 则 上 ， 更 智能 的 编译 器 或 运行 时 合 。 














当 把 函数 应 用 于 functor 对 象 时 ， 我 们 会 使 用 一 个 类 似 于 map () 的 方法 ， 相 当 于 * 运 算 符 。 
可 以 通过 function * functor 或 map (function，functor) 方 法 理解 函 子 在 表达 式 中 的 作用 。 


为 了 恰当 地 处 理 具有 多 个 参数 的 函数 , 可 以 使 用 & 运 算 符 构建 复合 郴 子 。functor & functor 
方法 常用 于 从 一 对 函 子 中 构建 出 一 个 functor 对 象 。 


可 以 使 用 Maybe 孙子 的 子 类 封装 Python 的 简单 类 型 。 末 子 Maybe 的 有 趣 之 处 在 于 可 以 用 它 
恰当 地 处 理 缺 失 数据 。 第 11 章 采 用 的 方法 是 将 内 置 函数 装饰 为 可 感知 None 值 的 函数 。 PyMonad 
库 采 用 的 方法 是 装饰 数据 ， 以 将 其 排除 在 外 。 


















































商 子 Maybe 有 以 下 两 个 子 类 : 

口 

口 Just ( 某 个 简单 值 ) 

使 用 Mothing 来 代替 Python 中 的 简单 值 None， 以 此 表示 缺失 数据 。 使 用 Just ( 茶 个 简单 

















值 ) 来 封装 其 他 所 有 Python 对 象 。 这 些 函 子 是 常数 值 的 类 函数 表达 形式 。 
可 以 对 这 些 Maybe 对 象 使 用 柯 里 化 函数 来 恰当 地 处 理 缺 失 数据 ， 示 例如 下 : 


>>> XI 
>>> XI 
116 .09 


= SYStolic_bp * Just(25) & Just(50) & Just(1) & Just(0) 


.getValue() 


= systolic bp * Just(25) & Just(50) & Just(1) & Nothing 


.getValue() is None 





运算 符 * 复 合 了 带 参数 复合 的 systolic_bp () 函数 。 运 算 符 g 构 建 了 一 个 复合 函 子 , 可 以 将 
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该 函 子 作为 参数 传递 给 多 参数 的 柯 里 化 函数 。 




















这 表明 得 到 的 是 一 个 值 ， 而 不 是 一 个 TypeError 异常 。 在 处 理 可 能 存在 缺失 数据 或 无 效 数 
据 的 大 型 复杂 数据 集 时 ， 这 样 处 理会 很 方便 ， 比 把 所 有 函数 都 装饰 为 可 感知 None 值 要 好 得 多 。 














这 种 做 法 对 柯 里 化 函数 非常 有 效 。 由 于 函 子 的 方法 非常 少 ， 因 此 不 能 在 非 柯 里 化 Python 代 
但 中 处 理 Maybe 子 子 。 


名 对 于 非 柯 里 化 Python 代码 ,必须 使 用 getValue () 方法 来 获取 简单 的 Python 值 。 


使 用 情 性 List () 函 子 


刚 接触 函 子 List () 的 人 可 能 会 感到 困惑 ， 不 同 于 Python 内 置 的 1ist 类 型 ， 它 是 非常 “ 懒 
惰 的 "。 当 对 内 置 的 1ist (range (10) ) 方 法 求 值 时 ，1ist () 函数 会 对 range () 对 象 求 值 来 创建 
一 个 包含 10 个 项 的 列表 。 然 而 ，PyMonad 的 List () 函 子 “ 懒 惰 ” 到 甚至 不 会 进行 这 种 计算 。 


下 面 比较 两 者 : 


>>> list (range(10)) 

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 
>>> List (range(10)) 

[range(0, 10)] 












































函 子 List () 没 有 对 range () 对 象 进行 求 值 ， 它 只 是 在 未 求 值 的 情况 下 先 保留 了 该 对 象 。 对 
于 收集 但 不 求解 函数 的 情况 ， 函 数 pymonad.List () 十 分 有 用 。 











其 中 range () 的 使 用 可 能 会 令 人 困惑 。Python 3 中 的 range () 对象 同样 也 是 惰性 的 ， 因 此 
示例 中 便 包含 两 层 延 后 。pymonad .List () 会 根据 需求 创建 数据 项 。List 中 的 每 一 项 都 是 一 个 
可 被 求 值 并 生成 一 个 值 序列 的 range () 对 象 。 


可 以 根据 之 后 的 需求 对 List 函 子 进行 求 值 : 


>>> x = List(range(10)) 

>>> x 

[range(0, 10)] 

>>> list(x[0]) 

[0y T2735 A Sb Ty B79] 




















这 样 就 创建 了 一 个 包含 range () 对 象 的 惰性 List 对 象 .随后 提取 并 求解 了 列表 中 0 位 置 的 
一 个 range () 对象。 

List 对 象 不 会 对 生成 器 函数 或 range () 对 象 进行 求 值 ， 它 将 任何 可 迭代 参数 都 视 为 单个 可 
友 代 对 象 。 然 而 ， 我 们 可 以 使 用 * 运 算 符 来 扩展 生成 器 或 range () 对 象 的 值 。 
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数 式 复合 运算 符 , 以 及 在 调用 函数 时 将 单个 序列 对 象 绑 定 为 函数 所 有 位 置 参数 的 


请 注意 ，* 运 算 符 有 几 种 含义 : 它 是 内 置 的 数学 乘法 运算 符 、PyMonad 定义 的 函 
i 内 置 修饰 符 。 下 面 将 使 用 它 的 第 三 种 含义 将 一 个 序列 赋 给 多 个 位 置 参数 。 








range () 函数 的 柯 里 化 版 本 如 下 ,其 下 界 是 1 而 不 是 0。 对 于 某 些 数学 运算 ， 这 样 做 会 比较 
方便 ， 因 为 可 以 避免 内 置 range () 函数 中 位 置 参数 的 复杂 性 。 


@curry 
def rangeln(n) : 


if n == 0: return range(1，2) # Only the value 1 
return range(1, n+l) 


这 样 就 简单 地 封装 了 内 置 的 range () 函数 ， 并 通过 PyMonad 包 将 其 柯 里 化 了 。 
由 于 List 对 象 是 一 个 光子， 因此 可 以 将 函数 映射 到 List 对 象 上 。 
将 函数 应 用 于 List 对 象 中 的 每 一 项 ， 示 例如 下 : 


>>> fact= prod * rangeln 

>>> seql = List(*range(20)) 

>>> £1 = fact * seqal 

>>> £1[:10] 

[1, 1, 2, 6, 24, 120, 720, 5040, 40320, 362880] 








这 样 就 定义 了 一 个 复合 函数 fact () , 它 由 前 面 的 proda () 函数 和 rangeln () 函数 构建 而 来 ， 
它 是 一 个 阶乘 函数 ;并 且 创 建 了 一 个 List () 函 子 seql, 它 是 一 个 包含 20 个 值 的 序列 ;还 将 fact () 
函数 映射 至 了 seql 孙子 ， 从 而 创建 了 一 个 阶乘 值 的 序列 £1; 还 查看 了 前 10 个 值 。 


























多 个 函数 的 复合 与 函数 和 芳子 的 复合 之 间 存 在 一 定 的 相似 性 。prod*rangeln 
和 和 fact*segl 都 使 用 函 教 式 复合 ， 显 然 前 者 复合 的 都 是 函数 ， 而 后 省 复合 的 是 
函数 和 函 子 。 


用 于 扩展 该 示例 的 为 一 个 小 函数 如 下 : 


@curry 
def n21 (n): 
return 2*n+1 


该 n21 () 小 函数 执行 了 一 个 小 型 计算 。 然 而 由 于 它 是 柯 里 化 的 , 因此 可 以 将 其 应 用 于 一 个 函 
如 List () 函数 。 上 述 示例 的 第 二 部 分 如 下 所 示 : 
>>> semi fact= prod * alt_ range 


>>> £2 = semi fact * n21 * seql 
>>> £2[:10] 


[1, 3, 15, 105, 945, 10395, 135135, 2027025, 34459425, 654729075] 


























这 样 就 通过 此 前 的 progd () 函数 和 alt_range () 函数 定义 了 一 个 复合 函数 。 函 数 f2 是 一 个 
半 阶 乘 ( 双 阶 乘 ) 函数 。 通 过 将 小 函数 n21 () 映射 到 seal 序列 来 构建 函数 £2 的 值 ， 便 创建 了 
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一 个 新 的 序列 。 随 后 将 semi_fact 函数 应 用 于 这 个 新 序列 ， 创 建 出 了 与 原 序 列 值 对 应 的 一 组 序 
列 值 。 


接 下 来 可 以 将 /运算 符 映射 至 map () 和 operator.truediv 并 行 算 子 了 。 


>>> 2*sum(map (operator.truediv, f1, £2)) 
3.1415919276751456 


函数 map () 会 将 给 定 的 运算 符 应 用 于 两 个 算 子 ， 并 生成 一 个 可 新 增 分 数 的 序列 。 


方法 f1 & f2 会 基于 两 个 List 对 象 创 建 出 值 的 所 有 组 合 。 这 是 List 对 象 的 
重要 特性 之 一 一 一 易于 枚 举 所 有 组 合 ,这 使 得 通过 简单 的 算法 便 能 计算 和 过 滤 出 

种 所 有 可 行 的 备 选 子 集 。 但 这 并 不 是 我 们 想 要 的 ， 这 就 是 使 用 map () 函数 而 不 是 
operator.truediv * fl & f2 方法 的 原因 。 


我 们 利用 一 些 函 数 式 复合 技术 和 一 个 函 子 的 类 定义 , 定义 了 一 个 相当 复杂 的 计算 。 该 计算 的 
完整 定义 如 下 : 











oo 


nl 
i 


理想 情况 下 ， 我 们 不 希望 使 用 固定 大 小 的 List 对 象 ， 而 希望 有 一 个 惰性 求 值 的 、 洪 在 无 穷 
整 型 数值 序列 ,之 后 可 以 使 用 sum() 函数 和 takewhile() 也 数 的 柯 里 化 版 本 计算 序列 值 的 总 和 ， 
直到 这 些 值 小 到 不 会 对 结果 产生 实在 影响 。 这 就 需要 一 个 比 List () 对 象 惰性 更 强 的 版 本 ， 以 配 
合 itertools.counter () 函数 使 用 。PyMonad 1.3 中 没有 这 样 的 潜在 无 穷 列表 ， 因 此 只 能 使 用 
国定 大 小 的 List () 对象。 


























14.5 ”单子 的 bind() 函数 和 >> 运 算 符 


PyMonad 库 的 名 称 来 自 单子 的 函数 式 编程 概念 , 即 一 个 函数 按 严格 的 顺序 求 值 。 许 多 函数 式 
编程 背后 都 有 一 个 基本 假设 : 求 值 顺序 是 任意 的 ， 可 以 按 需 优化 或 重新 排列 。 单 子 则 是 例外 , 它 
强制 从 左 到 右 严格 按 顺 序 求 值 。 


如 前 所 述 ， Python 的 执行 顺序 是 严格 的 ， 因 此 它 不 需要 单子 , 但 我 们 仍然 可 以 应 用 此 概念 将 
复杂 算法 清晰 化 。 


强制 严格 按 顺序 求 值 的 技术 是 单子 和 返回 单子 的 函数 之 间 的 一 个 纽带 。 一 个 扁平 的 表达 式 会 
变 成 优化 编译 器 无 法 重新 排序 的 典 套 绑 定 。 函 数 binad () 映射 为 >> 运 算 符 ， 因 此 可 以 编写 如 下 表 
达 式 : 


Just (some file) >> read header >> read next >> read next 
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上 述 表 达 式 会 转换 为 以 下 形式 : 


bingdl( 
bingdl( 
bind(Just (some file), read header), 
read next), 
read next) 


这 些 bind () 函数 确保 了 表达 式 从 左 到 右 严格 按 顺序 求 值 。 此 外 ， 上 述 表 达 式 是 函数 式 复 合 
的 一 个 示例 。 当 使 用 >> 运 算 符 创建 单子 时 ,创建 的 是 一 个 复杂 对 象 , 它 会 在 最 终 使 用 getvalue () 
方法 时 被 求 值 。 

子 类 Just () 用 于 创建 一 个 兼容 单子 的 简单 对 象 ， 该 对 象 封装 了 一 个 简单 的 Python 对 象 。 

对 于 高 度 优化 且 语 法 宽松 的 语言 来 说 ， 通 过 单子 的 概念 表达 严格 求 值 顺序 至 关 重 要 。Python 不 
需要 单子 是 因为 它 遵 循 从 左 到 右 的 严格 求 值 顺序 。 由 于 单子 并 没有 为 Python 环境 带 来 一 些 全 新 的 东 
西 ， 因 此 很 难 展示 其 特性 。 的 确 ， 单 子 声明 Python 所 遵循 的 典型 严格 求 值 规则 的 方式 有 点 宛 长 。 

在 Haskell 等 语言 中 ， 单 子 对 于 文件 读 写 等 有 严格 顺序 要 求 的 情况 来 说 至 关 重 要 。Python 的 
命令 式 模 式 非常 类 似 于 Haskell 的 ae 语句 块 ， 它 有 一 个 隐 式 的 Haskell>>= 运 算 符 用 于 强制 语句 
的 执行 顺序 。( 类 似 于 Haskell 的 >>= 运 算 ，Python 使 用 的 是 bina ( ) 函数 和 >> 运 算 符 。) 















































14.6 ”模拟 实现 单子 


我 们 期 望 通过 一 种 管道 传递 单子 , 即 把 单子 作为 参数 传递 给 一 个 函数 , 并 将 类 似 的 单子 作为 
函数 的 值 返回 。 必 须 将 该 函数 设计 成 可 以 接收 并 返回 类 似 的 数据 结构 。 


下 面 介绍 用 于 模拟 该 过 程 的 一 个 简单 的 管道 ， 这 种 模拟 可 以 是 正规 蒙特 卡 洛 模 拟 的 一 部 分 。 
我 们 将 从 字面 上 理解 蒙特 卡 洛 模 拟 , 并 模拟 一 个 撕 般 子 游戏 , 这 个 极其 复杂 的 模拟 过 程 涉及 一 些 
有 状态 的 规则 。 


其 中 还 涉及 一 些 游 戏 用 语 。 该 游戏 包含 一 个 掷 蜗 子 的 人 《一 名 投手 ) 和 其 他 玩家 。 游戏 分 为 
以 下 两 个 阶段 。 


口 第 一 次 掷 山 子 称 为 出 骨 子 ， 其 中 包含 3 个 条 件 。 


时 如 果 点 数 是 7 或 11， 则 投手 赢得 游戏 。 任 何 投注 过 线 的 人 都 会 作为 胜 者 赢得 奖励 ， 其 
他 人 则 失去 押 注 。 游 戏 结束 ， 投 手 可 以 开始 新 一 轮 游戏 。 

和 如 果 点 数 是 2、3 或 12， 则 投手 输 掉 游戏 。 任 何 投注 不 过 线 的 人 赢得 奖励 ， 其 他 人 则 失 
去 押 注 。 游 戏 结束 ， 投 手 必 须 将 仍 子 转交 给 另 一 名 投手 。 

里 任何 其 他 点 数 ( 即 4、5、6、8、9 或 10 ) 会 建立 一 个 点 。 游 戏 状态 从 出 仍 子 变 为 点 般 
子 ， 游 戏 继续 。 
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口 一 旦 建立 了 点 ， 每 一 次 的 点 骨 子 都 会 通过 以 下 3 个 条 件 来 验证 。 


时 如 果 点 数 是 7， 则 投手 输 掉 游 戏 。 除 了 投注 不 过 线 的 人 和 竞猜 注 码 ， 其 他 人 全 都 输 掉 
游戏 ， 游 戏 结 束 。 由 于 投手 输 掉 了 游戏 ， 因 此 角 子 转交 给 其 他 投手 。 

时 如 果 点 数 和 原来 一 样 ， 则 投手 输 掉 游戏 。 任 何 投注 过 线 的 人 成 为 胜 者 记得 奖励 ， 其 他 
人 和 输 掉 游戏 。 游 戏 结束 ， 投 手 可 以 开始 新 一 轮 游戏 。 

时 任何 其 他 点 数 的 情况 ， 游 戏 继续 进行 。 一 些 竟 猜 注 码 可 能 在 中 间 投 掷 过 程 中 获 利 或 
失利 。 


可 以 将 这 些 规则 视 为 对 状态 改变 的 需求 , 或 者 将 其 视 为 一 系列 操作 而 不 是 状态 改变 。 必须 先 
使 用 一 个 函数 再 使 用 递归 函数 。 通 过 这 种 方式 ， 配 对 函数 的 设计 十 分 适合 单子 设计 模式 。 

在 实际 操作 中 , 游戏 期 间 可 以 投注 许多 复杂 的 苋 猜 注 码 。 可 以 将 它们 从 游戏 的 基本 规则 中 分 
离 出 来 男 行 求 值 。 其 中 许多 投注 ( 竞猜 注 码 、 现 场 押 注 等 ) 都 是 在 游戏 的 点 般 子 阶段 进行 的 。 我 
们 将 忽略 这 些 额 外 的 复杂 性 ， 而 只 关注 核心 游戏 。 


需要 一 组 源 随机 数 ， 如 下 所 示 : 


import random 
def rng(): 
return (random.randint (1,6), random.randint (1,6)) 


上 述 函 数 生 成 一 组 仍 子 对 。 
整个 游戏 的 输出 结果 应 如 下 所 示 : 


def craps(): 
outcome = ( 
Just(("", 0, [])) >> come_out_roll (dice) 
>> point_roll (dice) 



























































) 
print (outcome.getValue()) 
这 样 就 创建 了 一 个 初始 单子 Just (("",0，[]))， 用 于 定义 要 使 用 的 基本 类 型 。 游 戏 将 生 
成 一 个 包含 结果 文本 、 般 子 点 值 和 投掷 序列 的 三 元 组 。 每 次 游戏 开始 ,默认 的 三 元 组 会 构建 三 元 
组 类 型 。 


把 这 个 单子 传递 给 其 他 两 个 函数 ， 这 样 会 根据 游戏 结果 创建 出 一 个 结果 单子 outcome。 按 
照 函数 必须 遵循 的 执行 顺序 使 用 >> 运 算 符 , 将 它们 以 特定 顺序 相连 接 。 在 具有 优化 编译 器 的 语言 
中 ， 这 会 避免 表达 式 顺 序 重 排 。 

最 后 使 用 getvalue () 方 法 获取 单子 的 值 。 由 于 单子 对 象 是 惰性 求 值 的 ,因此 调用 该 方法 会 
触发 对 各 个 单子 的 求 值 ， 以 此 创建 所 需 的 输出 。 


函数 come_out_rol1l() 以 柯 里 化 函数 rng () 为 第 一 个 参数 ， 以 单子 为 第 二 个 参数 。 天 数 
























































14.6 ”模拟 实现 单子 231 


















































come_out_rol1l() 会 丘山 子 并 通过 出 蜗 子 规则 来 确定 结果 是 赢 是 输 还 是 一 个 点 。 


en 以 单子 为 第 二 参数 。 随 后 函数 
boint_roll1() 会 掷 仍 子 以 确定 游戏 是 否 结束 。 如 果 尚 未 结束 ， 则 该 函数 会 进行 递归 运算 以 找寻 
最 终 解 。 


函数 come_out_roll () 如 下 所 示 : 























@curry 
def come_out_rolll(dice, status): 
dicely) 


if sum(d) in (7, 11): 

return Just(("win", sum(d), [qd])) 
elif sum(d) in (2, 3, 12): 

return Just(("lose", sum(d), [qd])) 
else: 

return Just(("point", sum(d), [qd])) 


掷 一 次 骨 子 来 确定 第 一 次 的 投掷 是 赢 是 输 还 是 建立 点 数 , 返回 的 是 一 个 合适 的 单子 , 其 中 包 
括 结果 、 点 值 和 骸 子 的 投掷 。 点 值 对 于 中 间 的 赢 或 输 没 有 太 大 意义 。 由 于 没有 建立 任何 点 值 ， 因 
此 这 里 合理 地 返回 一 个 0 值 。 


困 数 point_roll() 如 下 所 示 : 


@curry 
def point_roll(dice, status): 
prev, point, so_far = status 






































if prev != "point": 

return Just (status) 
d = dice() 
if sum(d) == 

return Just(("craps", point, so_far+[d])) 
elif sum(d) == point: 

return Just(("win", point, so_far+[d])) 
else: 

return ( 





Just(("point", point, so_far+[d])) 
>> point_roll (dice) 
) 


上 面 将 status 单子 分 解 为 元 组 的 3 个 独立 值 。 既 可 以 使 用 小 型 匿名 函数 对 象 获取 第 一 个 、 
第 二 个 和 第 三 个 值 ， 也 可 以 使 用 operator.itemgetter() 函数 获取 元 组 中 的 项 ,， 但 这 里 使 用 4 





的 是 多 重 赋值 语句 。 


如 果 尚 未 建立 点 , 则 它 的 前 一 个 状态 是 赢 或 者 输 。 游 戏 在 一 次 投掷 后 便 结束 了 ， 而 且 这 个 画 
数 会 仅 返 回 status 单子 。 


如 果 已 经 建立 了 一 个 点 , 那么 其 状态 便 是 一 个 点 。 当 撕 出 角子 后 , 规则 便 适 用 于 新 一 轮 投掷 


一 
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如 果 投 找 结果 是 7， 则 和 输 掉 该 游戏 并 返回 最 终 的 单子 ;如 果 投 掷 结果 是 一 个 点 ， 则 赢得 该 局 游戏 
并 返回 相应 的 单子 ， 否 则 会 将 略微 修改 过 的 单子 传递 给 point_rol1 () 函数 。 修 改 后 的 status 
单子 会 将 此 次 投掷 记录 在 历史 投掷 中 。 

典型 的 输出 结果 如 下 所 示 : 


>>> craps() 
('craps', 5, [(2, 3), (1, 3), (1, 5), (1, 6)]) 


最 终 的 单子 有 一 个 用 于 显示 结果 的 字符 串 , 其 中 包含 建立 的 点 值 般 子 的 投掷 序列 。 每 个 结 
果 都 对 应 一 个 特定 奖励 (payout )， 可 以 根据 它 来 确定 投注 者 所 持 押 注 的 总 体 波动 。 

可 以 通过 模拟 来 检验 不 同 的 投注 策略 。 我 们 希望 寻找 一 种 方法 来 破除 游戏 中 任何 隐 含 的 主场 
优势 。 























游戏 的 基本 规则 中 存在 有 一 些 细小 的 不 对 称 性 。 毛 得 11 直接 赢 和 括 得 3 直接 输 
是 相互 平衡 的 。 主 场 有 5.5% ( 1/18<0.055 ) 的 优势 是 因为 搓 得 2 和 12 也 算 输 。 
这 里 要 考虑 哪些 额外 的 投注 机 会 可 以 削弱 这 一 主场 优势。 


利用 一 些 简单 的 函数 式 设计 技术 可 以 构建 大 量 智能 的 蒙特 卡 洛 模 拟 。 特别 是 当 存 在 复杂 顺序 
或 内 部 状态 时 ， 单子 有 助 于 构建 这 类 计算 。 








14.7 单子 的 其 他 特性 


PyMonad 的 另 一 个 特点 是 名 字 容 易 混 消 的 么 半 群 ( monoid )。 它 源 自 数学 ， 指 的 是 具有 运算 
符 和 标识 元 素 的 一 组 数据 元 素 ， 且 这 组 数据 元 素 相 对 于 运算 符 是 封闭 的 。 自 然 数 、aqa 运算 符 和 
标识 元 素 0 可 以 组 成 么 半 群 。 正 整数 、* 运 算 符 和 标志 元 素 1 也 能 构成 么 半 群 。 使 用 | 作为 运算 
符 且 使 用 空 字符 串 作为 标识 元 素 也 能 构成 么 半 群 。 


PyMonad 包含 许多 预定 义 的 么 半 群 类 。 可 以 扩展 它们 来 添加 自己 的 monoia 类 , 以 限制 编译 
器 只 进行 某 些 优化 。 还 可 以 使 用 么 半 群 类 来 创建 可 以 累积 复杂 值 的 数据 结构 ,其 值 可 能 包括 过 往 
操作 的 历史 记录 。 


本 书 大 部 分 内 容 都 有 助 于 读者 深入 理解 函数 式 编程 。 理 解 文档 是 学 习 函 数 式 编程 的 一 条 捷 
径 。 与 其 学 习 整 门 语言 和 整套 工具 集 来 编译 并 运行 函数 式 程序 ， 不 如 直接 通过 交互 式 Python 进 
行 试验 。 

实际 上 ， 并 不 需要 太 多 特性 ， 因 为 Python 已 经 是 有 状态 的 ， 并 规定 了 严格 的 表达 式 求 值 顺 
序 。 没 有 必要 在 Python 中 引入 状态 化 对 象 或 严格 有 序 求 值 。 结 合 函 数 式 概念 和 Python 的 命令 式 
实现 ， 可 以 用 Python 编写 出 有 用 的 程序 。 出 于 这 个 原因 ， 本 书 不 再 深入 探讨 PyMonad。 
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14.8 ”小结 


本 章 介绍 了 如 何在 Python 中 使 用 PyMonad 库 来 展现 函数 式 编程 的 一 些 概念 。 该 模块 包含 了 
许多 重要 的 函数 式 编程 技术 。 


然后 介绍 了 柯 里 化 概念 , 该 函数 通过 组 
函数 式 复合 , 根据 简单 的 函数 创建 出 复杂 
子 ， 它 也 可 以 用 于 函数 式 复合 


在 使 用 优化 编译 器 和 惰性 求 值 规则 时 , 可 以 用 单子 指定 严格 的 求 值 顺序 。Python 中 并 没有 很 
好 的 单子 用 例 ， 因 为 Python 在 底层 是 一 种 命令 式 编程 语言 。 在 某 些 情况 下 ， 命 令 式 Python 可 能 
比 构造 单子 更 简洁 明了 。 


下 一 章 将 介绍 如 何 运用 函数 式 编程 技术 构建 Web 服务 和 应 用 。HTTP 的 思想 可 以 概括 为 
response = httpd (request)。 理想 情况 下 ，HTTP 是 无 状态 的 ， 因 而 非常 适合 函数 式 编程 。 
cookie 的 使 用 类 似 于 为 之 后 的 请 求 提供 响应 值 作为 参数 。 
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的 函 介绍 了 可 以 将 简单 数据 对 象 封装 为 函数 的 函 
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现在 搁置 EDA 主题 ,转向 Web 服务 器 和 Web 服务 。Web 服务 器 在 某 种 程度 上 就 是 许多 男 数 
的 级 联 。 可 以 应 用 许多 函数 式 设计 模式 来 解决 Web 内 容 的 呈现 问题 。 本 章 会 介绍 如 何 使 用 REST 
( representational state transfer， 表 述 性 状态 转移 )， 以 及 使 用 函数 式 设 计 模 式 构建 基于 REST 的 
( RESTful ) Web 服务 。 


我 们 无 须发 明 新 的 Python Web 框架 ,也 不 想 从 可 用 框架 中 选取 一 个 。Python 中 有 许多 可 用 
的 Web 框架 ， 并 且 每 个 框架 都 有 各 自 的 特性 和 优点 。 


本 章 旨 在 介绍 一 些 适 用 于 大 多 数 可 用 框架 的 设计 原则 , 它们 有 助 于 我 们 利用 函数 式 设 计 模 式 
呈现 Web 内 容 。 


在 研究 极其 庞大 或 复杂 的 数据 集 时 ， 可 能 需要 支持 子 集 化 或 搜索 的 Web 服务 ， 以 及 可 以 下 
载 到 各 种 格式 的 数据 子 集 的 网 站 。 在 这 种 情况 下 ， 可 能 需要 使 用 函数 式 设计 创建 基于 REST 的 
Web 服务 ， 来 满足 这 些 复杂 的 需求 。 


交互 式 Web 应 用 程序 通常 依赖 有 状态 会 话 来 使 站 点 更 易 用 。 用 户 的 会 话 信息 由 HTML 表单 
提供 的 数据 、 从 数据 库 获取 的 数据 , 或 者 从 之 前 交互 的 缓存 中 回收 的 数据 等 来 更 新 。 由 于 有 状态 
数据 必须 作为 每 个 事务 的 一 部 分 来 获取 , 因此 它 更 像 是 输入 参数 或 者 返回 值 。 即 便 在 存在 cookie 
和 数据 库 更 新 的 情况 下 ， 这 样 也 可 以 实现 函数 式 编程 。 

本 章 将 讨论 以 下 几 个 主题 ; 
口 HTTP 请 求 和 响应 模型 的 基本 概念 ; 
口 Python 应 用 程序 使 用 的 WSGI ( Web 服务 网 关 接 口 ) 标准 ; 
口 使 用 WSGI 将 Web 服务 定义 为 函数 ， 这 符合 无 状态 服务 器 的 HTTP 理念 ; 
口 以 及 如 何 授权 客户 端 应 用 程序 以 接 和 人 Web 服务 。 































































































15.1 HTTP“ 请 求 一 响应 ”模型 


HTTP 协议 几乎 是 无 状态 的 ， 即 用 户 代 理 (或 浏览 器 ) 发 出 请 求 后 服务 器 提供 响应 。 对 于 不 
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涉及 cookie 的 服务 ， 客 户 端 程序 可 以 从 函数 式 角 度 处 理 协议 。 我 们 可 以 使 用 http.client 和 
urllipb 库 来 构建 客户 端 。 一 个 HTTP 用 户 代理 实际 执行 的 内 容 如 下 所 示 : 

import urllib.request 

def urllib demo (url): 


with urllib.request.urlopen(url) as response: 
print (response.read()) 








urllib demo("http://slott-softwarearchitect.blogspot.com") 


wget 和 curl1 等 程序 使 用 以 命令 行 参 数 形式 提供 的 URL 来 完成 这 种 处 理 。 浏 览 咒 会 响应 用 
户 的 指示 和 点 击 操作 ，URL 则 来 自用 户 的 操作 ， 这 种 操作 通常 是 指点 击 链接 文本 或 图 像 。 


然而 ， 对 UX (user experience， 用 户 体 验 ) 设计 的 实际 考量 会 导致 一 些 有 状态 的 实现 细 闻 。 
当 客 户 端 必须 跟踪 cookie 信息 时 ,， 它 就 会 变 成 有 状态 的 。 响 应 头 会 提供 cookie, 并 且 后 续 的 请 求 
必须 将 cookie 返回 给 服务 器， 稍 后 将 详细 讨论 该 问题 。 


HTTP 响应 会 包含 一 个 需要 用 户 代 理 端 进行 额外 操作 的 状态 码 。300~399 范围 内 的 许多 状态 
码 表明 请 求 的 资源 已 经 被 移 走 了 。 用户 代理 随后 需要 保存 来 自 Location 报头 的 详细 信息 , 并 请 
求 一 个 新 的 URL。401 状态 码 表明 需要 认证 ， 因 此 用 户 代理 必须 使 用 包含 访问 服务 器 所 需 凭 证 
的 Authorization 报头 来 发 起 新 的 请 求 。 库 urllib 可 以 处 理 有 状态 客户 端的 请 求 。 库 
http.client 不 会 自动 跟随 3xx 的 重 定 向 状 态 码 。 


用 户 代理 处 理 3xx 和 401 代码 的 技术 可 以 通过 简单 的 递归 实现 。 如 果 状 态 不 表示 重 定 门 ， 
则 为 基础 情况 ， 函 数 返 回 结果 。 如 果 需 要 重 定向 ， 则 可 以 使 用 重 定向 地 址 递归 地 调用 该 函数 。 


考虑 协议 的 另 一 面 : 一 个 静态 内 容 的 服务 器 可 以 是 无 状态 的 。 对 于 此 ， 可 以 如 下 所 示 使 用 


http.server 库 : 



































from http.server import HTTPServer, def server_demo(): 
httpd = HTTPServer!( 

('localhost', 8080), SimpleHTTPRequestHandler) 
while True: 

httpd.handle_request () 
httpd.shutdown ( ) 


上 面 创建 了 一 个 服务 器 对 象 ， 并 将 其 赋 给 了 httpa 变量 。 我 们 提供 了 监听 连接 请 求 所 需 的 
地 址 和 端口 号 。TCP/P 协议 会 在 一 个 单独 的 端口 创建 新 的 连接 。HTTP 协议 会 从 这 个 端口 读 取 请 
求 并 创建 该 句柄 的 实例 。 


在 本 例 中 ， 我 们 提供 了 SimpleHTTPRequestHandler 类 来 初始 化 每 个 请 求 。 这 个 类 必须 
实现 一 个 最 小 的 接口 子 集 , 用 于 向 客户 端 先 发 送 报头 再 发 送 响 应 体 。 这 个 特定 类 会 提供 本 地 目录 
中 的 文件 。 如 果 想 自 定 义 功能 ， 可 以 创建 一 个 子 类 ， 实现 do_GET () 和 do_GET () 等 方法 来 改变 
其 行为 。 
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通常 使 用 serve_forever () 方 法 ， 而 不 是 手动 编写 循环 。 这 里 展示 循环 的 使 用 是 为 了 说 明 
如 果 需 要 停止 服务 器 ， 则 必须 关闭 服务 器 。 























15.1.1 通过 cookie 注入 状态 


Cookie 的 引入 改变 了 客户 端 和 服务 器 之 间 的 整体 关系 ,使 之 状态 化 了 ,然而 没有 涉及 对 HITP 
协议 本 身 的 修改 。 状 态 信息 通 过 请 求 和 响应 的 报头 进行 通信 。 服 务 器 会 在 响应 报头 中 向 用 户 代 理 
发 送 cookie。 用 户 代理 会 在 请 求 报头 中 保存 并 使 用 cookie 进行 响应 。 


用 户 代理 或 浏览 器 需要 保留 cookie 值 的 缓存 , 将 它 作为 响应 的 一 部 分 来 提供 , 并 在 后 续 的 请 
求 中 包含 相应 的 cookie。Web 服务 器 会 在 请 求 报头 中 查找 cookie， 并 在 响应 报头 中 提供 更 新 了 的 
cookie。 这 样 做 的 效果 是 Web 服务 需 变 为 无 状态 的 ， 而 状态 的 改变 只 在 客户 端 发 生 。 服 务 需 将 
cookie 视 为 请 求 中 的 额外 参数 ， 并 会 在 响应 中 提供 一 些 附 加 的 细节 信息 。 


Cookie 可 以 包含 任何 内 容 。 通 常会 将 它们 加 密 以 避免 Web 服务 器 的 详细 信息 暴露 给 客户 端 
计算 机 上 运行 的 其 他 应 用 程序 。 传输 巨大 的 cookie 会 拖 慢 处 理 速度 。 优 化 这 种 状态 处 理 的 最 佳 方 
法 是 使 用 现 有 框架 。 我 们 将 忽略 cookie 和 会 话 管理 的 细节 。 


会 话 的 概念 是 Web 服务 器 的 一 个 特性 ,而 不 是 HTTP 协议 。 通 常 将 会 话 定义 为 具有 相同 cookie 
的 一 系列 请 求 。 在 发 出 初始 请 求 时 ， 由 于 没有 可 用 的 cookie， 因 此 会 创建 一 个 新 的 会 话 cookie。 
每 个 后 续 请 求 都 将 包含 该 cookie。 一 个 登陆 用 户 的 会 话 cookie 中 会 包含 其 他 细节 信息 。 只 要 服务 
器 还 继续 接收 该 cookie， 会 话 便 可 以 一 直 存 续 ， 即 cookie 可 以 永久 有 效 ， 或 者 在 几 分 钟 后 失效 。 


Web 服务 的 REST 方法 不 依赖 会 话 或 cookie。 由 于 每 个 REST 请 求 都 不 同 ， 因 此 相 比 使 用 
cookie 来 简化 用 户 交 互 的 交互 式 网 站 , 它 不 是 那么 用 户 友 好 。 本 书 关 注 基 于 REST 的 Web 服务 是 
因为 它们 非常 符合 函数 式 设计 模式 。 


使 用 无 会 话 REST 进程 的 一 个 结果 是 每 个 单独 的 REST 请 求 都 会 被 单独 验证 。 如 果 需 要 身份 
认证 ， 则 意味 着 REST 通信 必须 使 用 SSL ( secured socket layer， 安 全 套 接 字 层 ) 协议 。 可 以 使 用 
https 方案 将 凭证 从 客户 端 安全 地 传输 到 服务 器 。 
















































































































































































15.1.2 ”函数 式 设计 的 服务 器 考量 
HTTP 背后 的 一 个 核心 思想 是 服务 器 响应 是 对 请 求 的 函数 。 从 概念 上 讲 ，Web 服务 应 该 具有 
顶层 实现 ， 概 括 如 下 : 


response = httpd(request) 


然而 这 样 做 是 不 切实 际 的 。 事 实证 明 ，HTTP 请 求 并 不 是 简单 的 、 单 一 的 数据 结构 ， 它 包含 
一 些 必 要 的 内 容 和 可 选 的 内 容 。 请 求 可 能 含有 报头 、 方 法 和 路 径 ， 也 可 能 有 附件 。 这 里 的 附件 可 
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能 包括 表单 或 上 传 的 文件 ， 或 两 者 兼 有 。 


如 果 情 况 再 复杂 一 些 ， 那 么 可 以 将 浏览 器 的 表单 数据 作为 GET 请 求 路 径 中 的 查询 字符 串 来 
发 送 , 或 者 将 其 作为 附件 发 送 给 PosT 请 求 。 尽 管 可 能 会 造成 混淆 , 但 大 部 分 Web 应 用 程序 框架 
都 会 创建 HTML 表单 标签 ， 通 过 <form> 标 签 中 的 method=POST 参数 提供 数据 ， 随 后 表单 数据 
会 以 附件 形式 包含 在 请 求 中 。 


























15.1.3 ”深入 研究 函数 式 视图 


HTTP 响应 和 请 求 都 有 独立 于 主体 的 报头 。 请 求 还 可 以 包含 一 些 附加 的 表单 数据 或 者 其 他 上 
传 的 文件 ， 因 此 可 以 把 一 个 Web 服务 器 视 为 如 下 形式 : 


headers, content = httpd(headers, request, [form or uploads]) 


请 求 报头 可 能 包含 cookie 值 , 可 以 将 其 视 为 额外 添加 的 参数 。 此 外 ，Web 服务 器 通常 依赖 所 
运行 的 操作 系统 环境 ， 因 此 也 可 以 将 该 操作 系统 环境 数据 看 作 请 求 中 提供 的 附加 参数 。 


对 于 内 容 ， 有 一 个 范围 虽 广 但 十 分 合理 的 定义 。MIME ( multipurpose internet mail extensions ， 
多 用 途 互 联网 邮件 扩展 ) 类 型 定义 了 Web 服务 可 能 返回 的 内 容 类 型 。 其 中 包括 纯 文 本 、HTML、 
JSON、XML, 或 者 网 站 提供 的 非 文 本 形式 的 各 种 媒体 。 


当 深 入 研究 针对 HTTP 请 求 构建 响应 所 需 的 处 理 时 ， 会 发 现 一 些 我 们 希望 复 用 的 公共 特性 。 
可 复 用 元 素 的 思想 是 创建 从 简单 到 复杂 的 Web 服务 框架 。 函 数 式 设 计 的 方式 允许 我 们 复 用 函数 ， 
这 表明 函数 式 方法 有 助 于 构建 Web 服务 。 


下 面 介 绍 如 何 为 服务 响应 中 的 各 个 元 素 创建 管道 ,来 讲解 Web 服务 的 函数 式 设计 。 我 们 将 
通过 髋 套 负责 处 理 请 求 的 函数 来 实现 这 一 点 ,这样 外 部 元 素 产生 的 一 般 开销 就 不 会 影响 内 部 元 素 
了 。 这 也 使 得 可 以 把 外 部 元 素 作 为 过 滤器 ， 为 无 效 的 请 求生 成 错误 响应 ， 并 让 内 部 函数 只 关注 应 
用 程序 本 身 的 处 理 。 







































































15.1.4” 艇 套 服务 


可 以 将 Web 请 求 处 理 看 作 许多 骸 套 的 上 下 文 。 例 如 外 层 上 下 文 可 能 涉及 会 话 管理 ， 即 检查 
请 求 以 确定 这 是 现 有 会 话 还 是 新 会 话 中 的 一 个 请 求 ; 内 层 上 下 文 可 能 会 为 用 于 检测 CSRF 
( Cross-Site Request Forgeries, 跨 站 请 求 伪造 ) 的 表单 处 理 提供 令 牌 ; 其 他 上 下 文 可 能 会 处 理会 话 
中 的 用 户 身 份 认证 。 

对 于 上 面 解释 的 功能 ， 其 概念 性 的 视图 如 下 所 示 : 

response = content ( 


authentication( 
csrf( 
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session (headers, request, form 


) 


这 里 的 思想 是 每 个 函数 都 可 以 建立 在 前 一 个 函数 的 结果 之 上 。 每 个 函数 
可 以 因 请 求 无 效 而 将 其 拒绝 。 例 如 函数 session () 
于 CSRF 处 理 要 求 会 话 有 效 ， 因 此 函数 csrf ( ) 会 检查 表单 


li 


一 个 新 会 话 。 由 
合适 的 令 牌 。 对 于 缺少 有 效 凭证 的 会 话 ， 函 数 aut 
存在 有 效 凭 订 





























函数 CO 
确定 应 当 提供 哪 类 内 容 。 在 更 复杂 的 应 月 





用 于 将 路 径 元 素 映射 到 能 确定 合适 内 容 的 函数 。 


S ) 























既 可 以 扩充 请 求 , 也 
可 以 使 用 报头 来 确定 这 是 一 个 现 有 会 话 还 是 
输入 以 确保 使 用 的 是 





hentication() 会 返回 一 个 错误 响应 ， 而 当 


F 时 ， 它 可 以 使 用 用 户 信息 来 扩充 请 求 。 


ntent () 无 须 担心 会 话 、 伪 造 和 未 经 身份 认证 的 用 户 。 它 可 以 专注 于 解析 路 径 ， 以 
程序 中 ， 国 数 Content ( 


) 可 能 包含 极其 复杂 的 映射 ， 


然而 内 套 的 函数 视图 仍然 不 够 准确 , 其 问题 在 于 每 个 内 套 的 上 下 文 可 能 还 需要 调整 响应 ， 而 





不 是 或 者 不 仅 是 调整 请 求 。 
理想 的 情况 如 下 所 示 : 


def session(headers, request, forms): 
pre-process: determine session 
content = csrf (headers, request, 
post-processes the content 
return the content 


forms 


csrf (headers, request, forms): 
pre-process: validate csrf tokens 
content = authenticate (headers, reques 
post-processes the content 

return the content 


这 一 概念 体现 出 一 种 函数 式 设计 思想 : 可 以 使 月 




















) 


t, forms) 





日 支持 扩充 输入 或 输出 的 骨 套 函数 集合 来 创建 





Web 内 容 。 更 巧妙 的 做 法 是 , 应 当 定 义 可 供 不 同 函数 使 用 的 简单 标准 接口 。 一 旦 将 该 接口 标准 化 


了 ， 就 能 以 不 同 的 方式 组 合 函 数 并 添加 功能 了 ， 从 而 实现 函数 式 编程 的 目标 ,月 


提供 Web 内 容 。 


15.2 WSGI 标 准 








简单 明了 的 程序 








WSGI ( web server gateway interface ，Web 服务 网 关 接 口 ) 定义 了 一 个 相对 简单 旦 标准 化 的 




















设计 模式 ， 用 于 创建 对 Web 请 求 的 响应 。 这 是 大 多 


E 架 。 更 





数 基于 Python 的 Web 服务 器 的 通用 


多 相关 信息 ， 可 访问 http://wsgi.readthedocs.org/en/latest/。 


三 


关于 WSGI 的 一 些 背 景 


知识 ， 可 访问 https:/www.python.org/dev/peps/pep-0333。 
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Python 库 中 的 wsgiref 包 包 含 了 一 个 WSGI 的 参考 实现 。 每 个 WSGI 应 用 程序 都 具有 相同 
的 接口 ， 如 下 所 示 : 


def some_app (environ, start_response): 
return content 








参数 environ 是 一 个 字典 , 以 单一 旦 统一 的 结构 包含 了 请 求 的 所 有 参数 。 报头 、 请 求 方法 、 
路 径 以 及 任何 表单 和 上 传 文件 的 附件 都 会 存放 在 这 个 环境 中 。 除 此 之 外 , 伴随 WSGI 请 求 处 理 的 
一 些 项 目 还 提供 了 操作 系统 级 的 上 下 文 。 


参数 start_response 是 一 个 专门 用 于 发 送 状态 和 响应 报头 的 函数 。WSGI 服务 器 中 最 终 
负责 构建 响应 的 部 分 将 使 用 给 定 的 start_response() 函数 ， 并 构建 响应 文档 作为 返回 值 。 


从 WSGI 应 用 程序 返回 的 响应 是 字符 串 序列 ， 或 是 会 返回 给 用 户 代 理 的 类 字符 串 文件 封装 
器 。 如 果 使 用 HTML 模板 工具 ,那么 该 序列 可 能 只 含有 一 项 。 在 某 些 情况 下 《〈 例 如 Jinja2 模板 ) 
会 将 模板 惰性 渲染 为 文本 块 序列 ， 这 人 允许 服务 器 交错 执行 模板 填充 和 用 户 代 理 的 下 载 。 


可 以 对 WSGI 应 用 程序 使 用 如 下 类 型 提示 : 


from typing import ( 
Dict, Callable, List, Tuple, Iterator, Union, Optional 









































) 


from mypy_extensions import DefaultArg 


SR_Func = Callablel 
[str, List[Tuplel[lstr, str]], DefaultArg (Tuple)], None] 


def static_app( 
environ: Dict, 
start_response: SR_Func 
) -> Union[Iterator[bytes], Listl[lbytes]]: 
类 型 定义 SR_Func 是 函数 start_response 的 签名 。 请 注意 ,该 函数 有 一 个 可 选 参数 ,要 
求 用 mypy_extensions 模块 中 的 函数 来 定义 该 特征 。 


static_app() 作 为 整个 WSGI 函数 , 需要 使 用 环境 参数 和 start_response () 函数 。 返 回 
的 结果 是 字 节 序列 ,或 者 是 基于 字 节 的 迭代 器 。 可 以 扩展 函数 static_app() 返 回 类 型 的 组 合 ， 
使 其 包含 BinaryIo 和 List[BinaryI0] ， 但 本 章 的 任何 示例 都 不 会 用 到 它们 。 

截至 本 书 出 版 时 ，wsgiref 包 中 尚 没 有 完整 的 类 型 定义 集合 。 具 体 而 言 ，wsgiref. 
simple_server 模块 缺少 合适 的 存根 定义 (stub definition )， 因 此 mypy 会 发 出 警告 。 

每 个 WSGI 应 用 程序 都 设计 成 了 函数 的 集合 。 可 以 将 该 集合 视 为 嵌 套 的 函数 或 一 条 转换 链 。 15 
链 中 的 每 个 应 用 程序 都 会 返回 一 个 错误 ， 或 者 将 请 求 转交 给 另 一 个 应 用 程序 来 确定 最 终结 果 。 


通常 用 URL 路 径 来 确定 要 使 用 的 备 选 应 用 程序 , 这 会 形成 一 个 WSGI 应 用 程序 的 树 形 结构 ， 
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并 且 它 们 可 以 共享 公共 组 件 。 


下 面 是 一 个 非常 简单 的 路 由 应 用 程序 ， 它 获取 URL 路 径 中 的 第 一 个 元 素 ， 并 以 此 定位 另 一 


个 提供 内 容 的 WSGI 应 用 程序 。 


SCRIPT MAP = { 
"demo": demo_app, 
natieorn ”Etlon dad 
"index.html": welcome_app, 
} 
def routing(environ, start_response): 
top_level = wsgiref.util.shift path infol(environ) 
app = SCRIPT_ MAP.get (top_level, welcome_app) 
content = app(environ, start_response) 
return content 


该 应 用 程序 会 使 用 wsgiref.util.shift_path info() 国 数 来 调整 环境 。 它 


会 对 


environ['PATH_INFO'] 字 典 中 请 求 路 径 中 的 各 项 进行 头 尾 分 割 。 第 一 个 /之 前 的 路 径 头 部 会 移 
至 环境 中 的 ScCRIPT_NAME 项 ，PATH_INFO 项 则 由 路 径 的 尾部 内 容 进 行 更 新 。 返 回 的 值 也 会 作 
为 路 径 头 部 ， 其 值 和 environ['SCRIPT_NAME '] 一 致 。 在 没有 路 径 可 解析 的 情况 下 ， 返 回 值 为 











None， 且 不 对 环境 进行 更 新 。 


函数 routing () 使 用 路 径 中 的 第 一 项 来 定位 scRIPT_MAP 字典 中 的 应 用 程序 。 我 们 使 用 
welcome_app 作为 默认 设置 , 避免 请 求 的 路 径 不 符合 映射 规则 , 这 似乎 比 返回 HTTP 的 404 NOT 











FOUND 错误 要 好 一 些 。 





























该 WSGI 应 用 程序 是 一 个 函数 , 用 于 选取 其 他 WSGI 函数 。 请 注意 , 路 由 函数 并 不 返回 函数 ， 


而 是 为 所 选取 的 WSGI 应 用 程序 提供 修改 过 的 环境 。 这 是 将 任务 从 一 个 函数 转移 到 另 一 个 函数 的 
典型 


型 设计 模式 。 























框架 通过 正则 表达 式 来 泛 化 路 径 匹配 过 程 。 可 以 设想 使 用 正则 表达 式 序 列 和 WSGI 应 用 程序 
来 配置 routing () 函数 ， 而 不 是 使 用 字符 串 到 WSGI 应 用 程序 的 映射 。 改 进 的 routing () 函数 
应 用 程序 会 计算 每 个 正则 表达 式 来 寻找 匹配 项 。 在 找到 匹配 后 , 在 调用 所 请 求 的 应 用 程序 之 前 可 














以 使 用 任何 match .groups () 函数 来 更 新 环境 。 


15.2.1 在 WSGI 处 理 期 间 抛 出 异常 


WSGI 应 用 程序 的 一 个 核心 特性 是 链 上 的 每 个 阶段 都 会 负责 过 波 请 求 。 其 思想 是 在 处 到 
中 尽早 拒绝 错误 的 请 求 。Python 的 异常 处 理 使 这 一 点 易于 实现 。 
可 以 定义 一 个 提供 静态 内 容 的 WSGI 应 用 程序 ， 如 下 所 示 : 


def static app( 
environ: Dict, 



































EE 过程 


15.2 WSGI 标 准 241 





start_response: SR_Func 
) -> Union[Iterator[bytes], List[lbytes]]: 
log = environ['wsgi.errors'] 
六 
print (f"CWD={Path.cwd()}", file=log) 
static path = Path.cwd()/environ['PATH_INFO'] [1:] 
with static path.open() as static file: 
content = static_ file.read() .encode ("utf-8") 
headers = | 
("Content-Type", 'text/plain;charset="utf-8"'), 
("Content-Length", str(lenl(content))), 
] 
start_response('200 OK', headers) 
return [content] 
except IsADirectoryError as e: 
return index_app (environ, start_response) 
except FileNotFoundError as e: 
start_response('404 NOT FOUND', []) 
return [ 
f"Not Found {static path}\n{e!r}".encode("utf-8") 
] 


该 应 用 程序 从 当前 工作 目录 中 创建 了 一 个 Patn 对 象 ， 以 及 一 个 作为 请 求 URL 一 部 分 而 提 
供 的 路 径 元 素 。 路 径 信息 是 WSGI 环境 的 一 部 分 , 位 于 以 PATH_INFO ' 为 键 的 项 中 。 正 是 由 于 这 
种 解析 路 径 的 方式 ， 因 此 它 会 有 一 个 前 导 的 /, 我 们 使 用 environ['PATH_INFO] [1:] 来 丢弃 该 
字符 。 


该 应 用 程序 尝试 将 请 求 的 路 径 以 文本 文件 的 形式 打开 。 这 里 有 两 个 常见 问题 , 会 将 它们 作为 
异常 来 处 理 : 
口 如 果 文 件 是 一 个 目录 ， 将 使 用 另 一 个 应 用 程序 index_app 来 呈现 目录 内 容 ; 
口 如 果 没 有 找到 该 文件 ， 将 返回 一 个 HTTP 404 NOT FOUND 响应 。 


该 WSGI 应 用 程序 引发 的 其 他 任何 异常 都 不 会 被 捕获 。 应 把 调用 该 应 用 程序 的 程序 设计 为 具 
有 某 种 通用 的 错误 响应 能 力 。 如 果 应 用 程序 不 处 理 这 些 异常 ， 则 会 使 用 通用 的 WSGI 故障 响应 。 









































上 面 的 处 理 涉 及 严格 的 运算 顺序 。 必 须 读 取 整 个 文件 才能 创建 一 个 正确 的 HTTP 
Content-Length 报头 。 








处 理 异常 有 两 种 方式 。 一 种 是 调用 男 一 个 应 用 程序 。 如 果 需 要 向 该 应 用 程序 提供 额外 信息 ， 
则 必须 使 用 所 需 的 信息 来 更 新 环境 。 这 便 是 为 一 个 复杂 网 站 构建 标准 化 错误 页 面 的 方法 。 

另 一 种 是 调用 start_response () 图 数 并 返回 一 个 错误 结果 , 这 适用 于 特定 的 本 地 化 行为 。 
最 终 的 内 容 以 字 节 形式 呈现 ， 这 意味 着 必须 将 Python 字符 串 正确 编码 ， 且 必须 向 用 户 代 理 提供 
编码 信息 ， 甚 至 在 错误 信息 repr (e) 被 下 载 之 前 就 应 该 已 经 正确 编码 。 
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15.2.2 ”实用 的 WSGI 应 用 程序 


设计 WSGI 标准 的 目标 不 是 定义 一 个 完整 的 Web 框架 ， 而 是 定义 一 组 最 小 标准 集合 来 支持 
灵活 的 、Web 处 理 相 关 的 互 操作 性 。 一 个 框架 可 以 采用 完全 不 同 的 方法 来 提供 Web 服务 。 最 外 
层 的 接口 应 该 与 WSGI 标准 相 兼容 ， 以 便 在 不 同 的 上 下 文中 使 用 。 


Apache 的 httpd 和 Nginx 等 Web 服务 器 都 有 适配器 , 用 于 从 Web 服务 器 向 Python 应 用 程序 
提供 兼容 WSGI 的 接口 。 有 关 WSGI 实现 的 更 多 信息 ， 可 参考 https://wiki.python.org/moin/ 
WSGIImplementations 。 


将 应 用 程序 能 和 人 一 个 更 大 的 服务 器 中 可 以 清晰 分 离 我 们 所 关注 的 问题 。 可 以 使 用 Apache 
httpd 提供 完全 静态 的 内 容 ， 如 .css、.js 和 图 像 文件 等 。 而 对 于 HTML 页 面 ，NGINX 等 服务 
器 可 以 使 用 uwsgi 模块 将 请 求 传递 给 单独 的 Python 进程 , 并 由 该 进程 负责 处 理 Web 内 容 中 我 们 
感 兴 趣 的 HTML 部 分 。 

分 离 静 态 内 容 和 动态 内 容 意味 着 必须 创建 一 个 单独 的 媒体 服务 器 ， 或 者 为 网 站 定义 两 组 路 
径 。 如 果 采 取 第 二 种 方法 ,那么 某 些 路 径 将 包含 完全 静态 的 内 容 , 并且 可 交 由 Nginx 处 理 。 其 他 
包含 动态 内 容 的 路 径 则 交 由 Python 处 理 。 

在 处 理 WSGI 函数 时 ， 需 要 注意 不 能 修改 或 扩展 WSGI 接 口 , 这 保证 了 应 用 程序 外 部 可 见 层 
的 完全 兼容 。 内 部 的 结构 和 处 理 不 必 符 合 WSGI 标 准 ， 外 部 接口 必须 统一 遵循 这 些 规 则 。 


WSGI 定 义 的 一 个 结果 是 常用 额外 的 配置 参数 更 新 environ 字典 ,通过 这 种 方式 ,一 些 WSGI 
应 用 程序 可 以 充当 网 关 ， 利 用 从 cookie、 配 置 文件 或 数据 库 中 提取 的 信息 来 扩充 环境 。 





























































































































15.3 将 Web 服务 定义 为 函数 

下 面 介绍 一 个 基于 REST 的 Web 服务 ， 它 可 以 切 分 源 数 据 ， 并 提供 JSON 、XML 或 CSV 格 
式 文件 的 下 载 。 我 们 将 提供 一 个 完全 兼容 WSGI 的 封装 器 。 负 责 执行 应 用 程序 实际 工作 的 函数 不 
必 严 格 遵循 WSGI 标 准 。 

我 们 会 使 用 一 个 具有 4 个子 集 的 简单 数据 集 : 安 斯 库 姆 四 重奏 。 第 3 章 介绍 过 读 取 和 和 解析 这 
些 数据 的 方法 。 它 是 一 个 小 型 数据 集 ， 但 可 以 用 来 展示 基于 REST 的 Web 服务 的 基本 原理 。 

该 应 用 程序 将 分 为 两 层 ， 属于 简单 WSGI 应 用 程序 的 Web 层 ， 和 使 用 了 更 典型 的 函数 式 编程 
技术 的 数据 服务 层 。 首 先 介绍 Web 层 ， 这 样 之 后 就 可 以 专注 于 提供 有 意义 结果 的 函数 式 方法 了 。 

需要 为 该 Web 服务 提供 以 下 两 种 信息 。 
口 所 需 的 四 重奏 : 这 是 一 个 切片 操作 ， 其 思想 是 通过 过 滤 和 提取 有 意义 的 子 集 来 分 割 信息 。 
口 所 需 的 输出 格式 。 
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通常 通过 请 求 路 径 来 选取 数据 。 可 以 请 求 /anscombe/I/ 或 /anscombe/II/ 通 过 四 重奏 选 
取 特 定数 据 集 。 其 思想 是 用 URL 来 定义 资源 ， 并 且 没 有 任何 理由 来 改变 URL。 在 这 种 情况 下 ， 
数据 集 选 取 器 将 不 依赖 日 期 或 菜 些 组 织 化 的 批准 状态 以 及 其 他 外 部 因素 。URL 是 不 包含 时 间 的 
绝对 路 径 。 


输出 格式 不 作为 顶层 URL 的 一 部 分 ， 它 只 是 一 个 序列 化 格式 ， 而 不 是 数据 本 身 。 在 某 些 情 
况 下 ,格式 是 通过 HTTP 的 Accept 报头 来 请 求 的 。 这 在 浏览 器 中 很 难 使 用 ,但 是 在 使 用 了 RESTful 
API 的 应 用 程序 中 却 很 容易 使 用 。 从 浏览 器 提取 数据 时 ， 通 常 通过 查询 字符 串 来 指定 输出 格式 。 
我 们 将 在 路 径 末 尾 使 用 ?form=json 方法 来 指定 JSON 输出 格式 。 

可 以 使 用 如 下 所 示 的 URL: 


http://localhost:8080/anscombe/III/?form=csy 


这 将 请 求 以 CSV 格式 下 载 第 3 个 数据 集 。 









































15.3.1 创建 WSGI 应 用 程序 
首先 使 用 一 个 简单 的 URL 模式 匹配 表达 式 来 定义 应 用 程序 中 的 唯一 路 由 。 在 一 个 更 大 或 更 
复杂 的 应 用 程序 中 ， 模 式 可 能 不 止 一 种 : 


import re 
path_ pat= re.compile(r"^/anscombe/ (?P<dataset>.*?)/?$") 


通过 这 种 模式 ， 可 以 在 路 径 顶 层 定 义 一 个 关于 WSGI 的 完整 脚本 。 在 本 例 中 ， 该 脚本 是 
anscombe。 我 们 把 下 一 级 路 径 作为 通过 安 斯 库 姆 四 重奏 选取 的 数据 集 ， 数据 集 的 值 落 于 I、II、 


III 或 IV。 


使 用 命名 参数 作为 选取 条 件 。 在 许多 情况 下 ， 可 以 使 用 如 下 请 法 来 描述 RESTful API: 


/anscombe/{dataset}/ 
这 种 理想 化 的 模式 转化 为 了 适当 的 正则 表达 式 ， 并 在 路 径 中 保留 了 数据 集 选 择 咒 的 名 称 。 
一 些 URL 路 径 示例 如 下 ， 它 们 演示 了 这 种 模式 的 工作 原理 : 






































>>> ml = path pat.match( "/anscombe/I" ) 
>>> m1.groupdict() 

{'dataset': 'I'} 

>>> m2 = path pat.match( "/anscombe/II/" ) 
>>> m2 .groupdict() 


{'dataset': 'II'} 

>>> m3 = path pat.match( "/anscombe/" ) 15 
>>> m3.groupdict() 

{'dataset': ''} 





这 些 示 例 都 显示 了 从 URL 路 径 中 解析 得 到 的 详细 信息 。 如 果 指 定 了 某 个 序列 的 名 称 ， 则 它 
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会 出 现在 路 径 中 ;如 果 没 有 指定 序列 名 称 ， 则 模式 返回 的 是 一 个 空 字符 串 。 








完整 的 WSGI 应 用 程序 如 下 : 


import traceback 
import urllib.parse 
def anscombe_app( 


environ: Dict, start_response: SR_Func 


) -> Iterable[lbytes]: 


log 


Cs 


= environ['wsgi.errors'] 


match = path pat.match(environ['PATH_INFO']) 

set_id = match.group('dataset') .upper() 

query = urllib.parse.parse_ qs (environ['QUERY_STRING']) 

print (environ['PATH_INFO'], environ['QUERY_STRING'], 
match.groupdict(), file=log) 


dataset = anscombe filter(set id, raw data()) 
content bytes, mime = serializel( 
query['form'] [0], set id, dataset) 
headers = [ 
('Content-Type', mime), 
('Content-Length', str(len(content_bytes))), 
] 
start_response("200 OK", headers) 
return [content_bytes] 


except Exception as e: # pylint: disable=broad-except 


traceback.print_exc (file=1og) 
tb = traceback.format_exc() 
content = error_ page.substitutel 
title="Error", message=repr(e), traceback=tb) 
content_bytes = content.encode("utf-8") 
headers = |[ 
('Content-Type', "text/html"), 
('Content-Length', str(len(content_bytes))), 
] 
start_response("404 NOT FOUND", headers) 
return [content_bytes] 





该 应 用 程序 会 从 请 求 中 提取 两 条 信息 : 环境 字典 中 的 PATH_INFO 键 和 QU] 














ERY_STRING 键 。 





PATH_INFO 请 求 会 定义 要 提取 的 数据 集 。QUERY_STRING 请 求 将 指定 输出 的 格式 。 








请 注意 ， 


来 对 结 








查询 字符 串 可 能 非常 复杂 。 我 们 使 用 了 url1ib.parse 模块 来 准确 定位 查询 字符 
串 中 所 有 名 称 和 值 的 配对 ,而 不 是 简单 地 假定 它 是 一 个 类 似 于 ?form=json 的 字符 串 。 在 通过 查 
询 字符 串 提取 得 到 的 字典 中 ， 可 以 在 query['form'][0] 中 找到 以 form 为 键 的 值 。 这 应 该 是 
定义 过 的 格式 之 一 ， 否 则 会 引发 异常 ， 并 显示 一 个 错误 页 面 。 


定位 到 路 径 和 查询 字符 串 后 , 用 粗 体 强调 了 应 用 程序 的 处 理 过 程 。 这 两 条 语句 依赖 三 个 函数 











进行 收集 、 过 滤 和 序列 化 。 
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口 函数 raw_qata() 从 文件 中 读 取 原始 数据 ， 结 果 是 一 个 包含 一 组 Pair 对 象 的 字典 。 

口 函数 anscombe_filter () 接 收 一 个 选择 字符 串 和 源 数据 字典 , 并 返回 Pair 对 象 的 单个 
列表 。 

D serialize() 函数 随后 将 该 配对 列表 序列 化 为 字 节 码 。 序 列 化 器 会 生成 字 节 码 ， 这 样 就 
可 以 用 合适 的 报头 打包 并 返回 了 。 


我 们 选择 了 生成 一 个 HITP 的 content -Length 报头 作为 结果 的 一 部 分 。 这 个 报头 并 不 是 
必需 的 , 但 有 助 于 下 载 大 文件 。 由 于 我 们 决定 发 送 该 报头 ， 因 此 必须 用 序列 化 的 数据 创建 字 节 对 
象 ， 以 便 统 计 这 些 字 节 。 


如 果 选 择 忽略 content-Length 报头 ， 那 么 可 以 大 规模 地 改变 这 个 应 用 程序 的 结构 。 可 以 
把 每 个 序列 化 器 都 更 改 为 生成 需 函 数 , 并且 它 们 在 创建 时 会 生成 字 节 对 象 . 对 于 大 型 数据 集 来 说 ， 
这 种 优化 可 能 有 益 , 然而 对 于 关注 下 载 进 度 的 用 户 可 能 不 太 友 好 ， 因 为 浏览 器 无 法 显示 下 载 的 完 
成 情况 。 

一 种 常见 的 优化 是 将 事务 分 解 为 两 部 分 。 第 一 部 分 用 于 计算 结果 并 将 文件 放 人 Downloads 
目录 。 响 应 是 一 个 带 有 Location 报头 的 302 FoUND， 用 于 标识 需 下 载 的 文件 。 通 常 大 部 分 客 
户 端 会 基于 这 个 原始 响应 来 请 求 文件 。 可 以 用 不 涉及 Python 应 用 的 Apache httpd 或 者 Nginx 下 
载 文件 。 

本 例 将 所 有 错误 视 为 404 NOT FOUND 错误 会 引起 误导 ， 因 为 可 能 是 其 他 环节 出 了 问题 。 更 
复杂 的 错误 处 理会 引入 更 多 的 try : /except : 块 来 提供 更 多 信息 反馈 。 

出 于 调试 的 目的 , 在 生成 的 Web 页 面 中 提供 了 Python 的 栈 跟 踪 。 在 没有 调试 需求 的 环境 中 ， 
这 是 一 种 非常 糟糕 的 做 法 。 来自 API 的 反馈 应 该 只 用 于 处 理 请 求 , 无 他 。 栈 跟踪 会 向 潜在 的 恶意 
用 户 提供 过 多 信息 。 





































































































15.3.2 ”获取 原始 数据 
函数 raw_gata () 类 似 于 第 3 章 的 例子 ,但 有 一 些 重要 的 变化 。 该 应 用 程序 中 用 到 了 如 下 内 容 : 


from Chapter_3.ch03_ex5 import ( 
series, head map_filter, row_ iter) 
from typing import ( 
NamedTuple, Callable, List, Tuple, Iterable, Dict, Any) 











RawPairIter = Iterable[Tuple[lfloat, float]] 


class Pair (NamedTuple): 
> hehe 
Sa 


pairs: Callapble[[RawPairIter]，List[Pair]] \ 
= lambda source: list(Pair(*row) for row in source) 
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def raw_data() -> Dict[str, List[lPair]]: 
with open("Anscombe.txt") as source: 
data = tuple(head map_filter(row_ iter(source))) 
mapping = { 
iqd_str: pairs (series (iqd num, data)) 
for iqd num, id_ str in enumerate( 
上 
} 


return mapping 


函数 raw_qata() 会 打开 本 地 数据 文件 , 并 利用 row_iter () 函数 将 解析 后 的 文件 的 每 一 行 
返回 单独 的 项 目 行 中 。 上 面 运 用 head_map_filter () 拯 数 删除 了 文件 的 头 部 , 结果 创建 了 一 个 
列表 元 组 结构 ， 并 将 其 赋 给 aata 变量 ， 这 可 以 将 输入 解析 为 有 用 的 结构 。 生 成 的 结构 是 
NamedTuple 的 子 类 Pair 的 一 个 实例 ， 且 其 中 两 个 字段 的 类 型 提示 为 float。 























上 面 使 用 字典 推导 式 构 建 了 从 iaq_str 到 由 series() 函数 结果 组 合 配对 的 映射 。 函 数 
series() 从 输入 文档 中 提取 (x,y) 对 。 文 档 中 的 每 个 序列 都 在 两 个 相 邻 的 列 中 。 名 为 工 的 序列 在 
第 0 列 和 第 1 列 ， 函 数 series () 从 中 提取 相关 列 对 。 

创建 的 函数 pairs () 是 匿名 函数 对 象 ， 因 为 它 是 带 有 单个 参数 的 小 型 生成 需 函 数 。 该 函数 
根据 series () 函数 创建 的 匿名 元 组 序列 构建 所 需 的 NamedTuple 对 象 。 

由 于 raw_gata() 函数 的 输出 是 映射 ， 因 此 通过 名 称 选 取 某 个 特定 的 序列 ， 示 例如 下 : 


>>> raw_data()['I'] 
[Pair(x=10.0, y=8.04), Pair(x=8.0, y=6.95), ... 









































给 定 一 个 键 ， 例 如 工 ， 该 序列 是 一 个 Pair 对 象 的 列表 ， 且 该 序列 中 的 每 一 项 都 具有 x 值 和 
y 值 。 








15.3.3 ”运用 过 滤器 
该 应 用 程序 中 使 用 了 一 个 非常 简单 的 过 滤器 。 以 下 函数 展现 了 整个 过 滤 流 程 : 


def anscombe_filter!( 
set_id: str, raw_ data map: Dict[str, List[Pair]] 
) -> List[Pair]: 
return raw_data map[set_iqd] 


把 这 个 简单 表达 式 转化 为 函数 出 于 以 下 3 个 原因 : 


口 相 比 下 标 表达 式 ， 聘 数 表 示 法 形式 上 更 一 怪 ， 也 更 灵活 ; 
口 易于 扩展 过 滤 需 的 功能 ; 
口 可 以 在 这 个 函数 的 文档 字符 串 中 包含 独立 的 单元 测试 。 


尽管 简单 的 匿名 函数 可 以 正常 工作 ， 但 测试 起 来 并 不 怎么 方便 。 
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我 们 完全 没 做 任何 错误 处 理 , 而 关注 的 是 所 谓 的 幸福 之 路 ( happy path ), 即 一 系列 理想 事件 。 
该 函数 中 出 现 的 任何 问题 都 可 能 引发 异常 。WSGI 的 封装 函数 应 当 捕 获 所 有 异常 并 返回 相应 的 状 
态 信 息 和 错误 响应 内 容 。 


例如 set_ia 方法 有 时 会 出 错 。 与 其 纠结 于 所 有 可 能 的 出 错 情形 ， 不 如 直接 允许 Python 给 
出 异常 。 实 际 上 ， 该 函数 遵循 了 Python 的 建议 : 寻求 原谅 而 不 是 请 求 许可 。 通 过 避免 请 求 许可 
在 代码 中 实践 了 该 建议 ， 即 没有 任何 预 设 的 if 语句 会 试图 判定 参数 是 否 有 效 。 这 里 只 有 宽恕 处 
理 一 一 异常 出 现 后 即 在 WSGI 封 装 器 中 进行 处 理 。 这 一 基本 建议 适用 于 之 前 的 原始 数据 和 下 面 要 
介绍 的 序列 化 。 
































15.3.4 序列 化 结 


序列 化 是 将 Python 数据 转换 成 适合 传输 的 字 节 流 。 每 种 格式 最 好 用 一 个 简单 的 函数 来 描述 ， 
该 函数 只 序列 化 这 一 种 格式 。 随 后 可 以 在 特定 序列 化 器 列表 中 选取 一 个 项 层 通用 序列 化 器 。 可 使 
用 以 下 函数 集合 选择 序列 化 器 : 














Serializer = Callable[[str, List[Pair]], bytes] 
SERIALIZERS: Dictl[str, Tuplel[lstr, Serializer]]= { 
'xml': ('application/xml', serialize xml), 

'html': ('text/html', serialize htm]l), 
'json': ('application/json', serialize json), 
'Csv': ('text/csv', serialize_csv), 


} 


def serializel( 
format: str, title: str, data: Listl[Pair] 
) -> Tuple[lbytes, str]: 
mime, function = SERIALIZERS .get( 
format.lower(), ('text/html', serialize html]l)) 
return function(title, data), mime 
整个 serialize() 函数 负责 在 SERIALIZERS 字典 中 定位 某 个 特定 的 序列 化 器 ， 该 字典 将 
格式 名 称 映 射 到 一 个 二 元 组 。 该 元 组 有 一 个 MIME 类 型 ， 且 必须 在 响应 中 使 用 来 表示 结果 。 该 
元 组 还 包含 一 个 基于 Serializer 类 型 提示 的 函数 。 该 函数 会 把 名 称 和 Pair 对 象 列表 转换 为 待 
下 载 的 字 节 对 象 。 


函数 serialize() 没 有 转换 任何 数据 。 它 只 是 将 名 称 映射 到 负责 执行 转换 的 函数 ， 返 回 一 
个 函数 使 得 整个 应 用 程序 可 以 管理 内 存 的 详细 情况 或 文件 系统 的 序列 化 。 尽管 对 文件 系统 进行 序 
列 化 很 慢 , 但 它 可 以 处 理 大 的 文件 。 

下 面 讲解 各 个 序列 化 器 。 它 们 可 以 分 为 两 组 : 生成 字符 串 的 序列 化 器 和 生成 字 节 码 的 序列 化 
器 。 生 成 字符 串 的 序列 化 器 需要 将 字符 串 编 码 为 字 节 以 供 下 载 。 生 成 字 节 码 的 序列 化 器 无 须 任何 
额外 操作 。 
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对 于 生成 字符 串 的 序列 化 器 , 可 以 使 用 带 有 标准 化 字 节 转换 函数 的 复合 函数 。 可 以 实现 标准 
化 字 节 转换 的 装饰 器 如 下 所 示 : 


from typing import Callable, TypeVar, Any, cast 





from functools import wraps 
def to_bytes ( 
function: Callable[..., str] 
) -> Callablel[..., bytes]: 
@wraps (function) 
def decorated(*args, **kw): 


text = function(*args, **kw) 
return text.encode ("utf-8") 
return cast (Callablel[..., bytes], decorated) 


这 样 就 创建 了 一 个 名 为 eto_bytes 的 小 型 装饰 器 。 它 会 对 给 定 的 函数 进行 求 值 ， 然 后 使 用 
UTF-8 将 结果 编码 为 字 节 码 。 请 注意 ， 装 饰 需 将 被 装饰 函数 的 返回 值 类 型 从 str 变 为 了 bytes。 
至 此 ， 还 没有 正式 声明 被 装饰 函数 的 参数 ， 以 及 使 用 .. .来 蔡 代 实现 细节 。 下 面 将 展示 如 何 配合 
JSON、CSV 和 HTML 序列 化 器 来 使 用 该 装饰 器 。XML 序列 化 器 会 直接 生成 字 节 码 ， 因 此 不 需 
要 使 用 这 个 附加 函数 进行 复合 。 




















也 可 以 在 对 serializers 映射 的 初始 化 中 进行 函数 式 复合 。 可 以 装饰 函数 对 象 的 引用 ， 而 
非 装 饰 函 数 定 义 。 序 列 化 器 映射 的 男 一 种 定义 如 下 : 


SERIALIZERS = { 


'xml': ('application/xml', serialize xml), 

'html': ('text/html', to_ bytes(serialize htm]l)), 
'json': ('application/json', to_bytes (serialize json)), 
'CSV': ('text/csv', to_bytes (serialize csv)), 


} 














这 样 就 把 函数 定义 中 的 装饰 器 替换 为 了 在 构建 数据 结构 映射 时 使 用 的 装饰 器 。 这 种 延 后 装饰 
的 形式 可 能 会 令 人 困惑 。 


15.3.5 ”序列 化 数据 为 JSON 或 CSV 格式 

JSON 序列 化 器 和 CSYV 序列 化 器 很 相似 ， 因 为 它们 都 依赖 Python 库 来 进行 序列 化 。 这 些 库 
本 质 上 都 是 命令 式 的 ， 因 此 函数 体 由 严格 的 语句 序列 组 成 。 

JSON 序列 化 器 如 下 所 示 

import json 


@to_bytes 
def serialize json(series: str, data: List[lPair]) -> str: 


>>> data = [Pair(2,3), Pair(5,7)] 
>>> serialize json( "test", data ) 
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b'[{"x": 2， ny": 3}, {"x": 5， ny": 7}]" 


SBI = [dret(E OEE] 
text = json.dumps (obj, sort_keys=True) 
return text 


这 样 就 创建 了 一 个 字典 列表 的 结构 ， 并 使 用 json .dumps () 函数 创建 了 字符 串 表 示 形 式 。 


JSON 模块 要 求 具体 化 的 list 对 象 ， 因 此 不 能 提供 惰性 生成 器 函数 。 尽 管 参 数值 
sort_keys=True 有 助 于 单元 测试 ， 但 它 不 是 应 用 程序 所 必需 的 ， 而 且 会 引 和 一些 开销 。 


CSV 序列 化 器 如 下 所 示 : 


import csy 
import io 











@to_bytes 
def serialize csv(series: str, data: List[Pair]) -> str: 


>>> data = [Pair(2,3), Pair(5,7)] 
>>> serialize csv("test", data) 
b'x,y\\r\\n2,3\\r\\n5,7\\r\\n’' 


buffer = io.StringIO() 

wtr = csv.DictWriter (buffer, Pair._fields) 
wtr.writeheader () 
wtr.writerows(r._asdict() for r in data) 
return buffer.getvalue!() 


CSV 模块 的 读 取 咒 和 写 人 器 混合 了 命令 式 元 素 和 六 数 式 元 素 。 我 们 必须 创建 写 人 器 , 并 按照 
严格 的 顺序 正确 创建 表 头 。 上 面 使 用 了 Pair 命名 元 组 的 _fielgs 属性 来 为 写 人 器 确定 列 标题 。 


写 人 器 的 writerows () 方 法 可 以 接收 一 个 惰性 生成 器 函数 。 本 例 中 使 用 了 每 个 Pair 对 象 
的 _asaict () 方 法 来 返回 一 个 适合 CSV 写 人 器 使 用 的 字典 。 


























15.3.6 ”序列 化 数据 为 XML 格式 


下 面 介绍 一 个 使 用 Python 内 置 的 库 进 行 XML 序列 化 的 方法 , 这 将 从 单独 的 标签 构建 出 一 
文档 。 一 种 常用 的 替代 方法 是 使 用 Python 的 自省 特性 来 进行 检查 并 将 Python 对 象 和 类 名 映射 为 
XML 标记 和 属性 。 


XML 序列 化 过 程 如 下 : 


import xml.etree.ElementTree as XML 



































def serialize xml (series: str, data: List[Pair]) -> bytes: 


>>> data = [Pair(2,3), Pair(5,7)] 
>>> serialize xml( "test", data ) 
b'<series 
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name="test"><row><x>2</X><y>3</y></row><row><x>5</X><y>7</y></row></series>' 


mn nm 


doc = XML.Element ("series" 
for row in data: 
row_xml 
xX XML . Su. 
XxX.text S 
y = XML.Su 
y.text S 
return cast (by 


这 样 就 创建 了 


tr(row.x 
bElement 


r(row.y 


Les, 





， name= 


= XML.SubElement (doc, 
bElement (row_xml, 


XML .tostring (doc, 











<row> 内 创建 了 <x> 标 签 和 <y> 标 签 ， 





series) 


"row") 


“xn) 


) 
(row_xml, "y") 
) 


encoding='utf-8')) 





个 顶层 元 素 <series>， 并 将 子 元 素 <row> 放 在 它 的 下 面 。 在 每 一 个 子 元 素 
并 将 文本 内 容 赋 给 了 各 个 标签 。 


使 用 ElementTree 库 作 为 构建 XML 文档 的 接口 往往 是 命令 式 的 ， 因 此 它 不 适合 函数 式 设 


计 。 除 了 命令 式 做 法 外 ， 请 注意 } 


没有 创建 DTD ( documnet type definition ， 文 档 类 型 定义 ) 或 


XSD (XML schemas definition ，XML 模式 定义 )， 也 尚未 为 标签 分 配合 适 的 命名 空间 ， 同 时 省 略 





了 <?xml version="1.0"?> 处 理 指令 


函数 XML .tostring () 有 一 个 类 





当 提 供 的 是 encoding 参数 时 ， 结 果 也 











， 而 通 


常 它 会 作为 XML 文档 的 第 一 项 。 











型 提示 月 


类 型 会 


因此 使 用 显 式 的 cast () 将 实际 

















有 于 声明 返回 的 是 str。 这 样 做 通常 是 正确 的 ,但 
变 为 pytes。 并 没有 简单 的 方法 来 根据 参数 的 值 
类 型 告知 mypy。 


East = 二 


更 高 级 的 序列 化 库 可 能 会 有 所 帮助 ， 访 问 https://wiki.python.org/moin/PythonXml 查看 更 多 


判断 返回 值 的 类 型 ， 
选择 。 
15.3.7 序列 化 数据 为 HTML 


序列 化 的 最 后 一 个 示例 将 展示 创建 HMTL 文档 的 复杂 性 。 这 种 复杂 性 来 自我 们 期 望 提供 包 
含 大 量 上 下 文 信息 的 完整 Web 页 面 。 解 决 该 HTML 问题 的 一 个 方法 如 下 : 


import string 
data_page string.Template("" 
<html> 


i 


<head><title>Series S${title}</title></head> 


<body> 
<hl>Series S${title}</hi> 
<table> 


<thead><tr><td>x</td><td>y</td></tr></thead> 


<tbody> 

Ss {rows} 

</tbody> 
</table> 
</body> 

</html> 

Sy ty) 


@to_bytes 
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def serialize html (series: str, data: List[Pair]) -> str: 


>>> data = [Pair(2,3), Pair(5,7)] 
>>> serialize html("test", data) #doctest: +ELLIPSIS 
b'<html>...<tr><td>2</td><td>3</td></tr>\\n<tr><td>5</td><td>7</td></tr>... 


text = data page.substitutel 
title=series, 
rows="\n".joint( 
"<tr><td>{0.x}</td><td>{0.y}</td></tr>".format (row) 
for row in data) 
) 
return text 
该 序列 化 函数 包含 两 部 分 。 第 一 部 分 是 一 个 包含 基本 HTML 页 面 的 string.Template() 
函数 。 它 有 两 个 占 位 符 ， 使 得 数据 能 插入 文档 中 。 方 法 $S{ttitle)} 指 示 了 可 以 插入 标题 信息 的 位 
置 ， 而 方法 ${rows} 则 指示 了 可 以 插入 数据 行 的 位 置 。 
该 函数 使 用 简单 的 格式 化 字符 串 创 建 各 个 数据 行 。 它 们 拼接 成 一 个 更 长 的 字符 串 , 然后 被 替 
换 至 模板 中 。 
虽然 对 于 上 述 示例 这 种 简单 情况 是 可 行 的 ， 但 是 对 于 更 复杂 的 生成 数据 集 来 说 就 不 太 理想 
了 。 有 许多 更 复杂 的 模板 工具 可 用 于 创建 HTML 页 面 ， 它 们 大 都 具备 在 模板 中 般 入 循环 ， 以 及 
分 离 初始 序列 化 函数 等 功能 。 更 多 选择 见 https://wiki.python.org/moin/Templating. 
























































15.4 ”跟踪 使 用 情况 


许多 公用 的 API 都 需要 使 用 API Key ( API 密 钥 )。API 提供 者 会 要 求 使 用 者 注册 并 提供 电子 
邮件 地 址 或 其 他 联系 信息 ， 之 后 他 们 会 提供 一 个 API Key 用 于 激活 该 API。 


API Key 可 用 于 验证 访问 ， 也 可 以 用 于 授权 特定 的 功能 ， 还 可 以 用 于 跟踪 使 用 情况 。 如 果 在 
给 定 的 时 间 内 API Key 使 用 过 频 ， 还 可 以 用 它 来 限制 请 求 。 


在 业务 模型 中 有 多 种 变化 。 例 如 APIKey 的 使 用 可 以 是 可 计 费 事件 。 对 于 其 他 业务 来 说 , 流 
量 必须 在 达到 一 定 的 阔 值 之 后 才 会 被 要 求 付 费 。 


其 中 重要 的 一 点 是 API 使 用 的 不 可 抵赖 性 , 反之 这 意味 着 创建 的 APIKey 可 以 用 作用 户 身 份 
验证 的 凭据 。 密 钥 必 须 难 以 伪造 而 易于 验证 。 


创建 APIKey 的 一 种 简单 方法 是 使 用 加 密 随 机 数 来 生成 难以 预测 的 密 钥 字符 串 。 可 以 用 模块 
secrets 生成 唯一 的 APIKey， 并 且 这 些 密 钥 值 会 分 配给 客户 端 用 于 跟踪 使 用 情况 。 
>>> import secrets 


>>> secrets.token urlsafe(18*size) 
'kzac-xQ-BB9Wx0aQoXRCYQxr' 
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针对 随机 字 节 码 ,我 们 使 用 Base64 编码 来 创建 字符 序列 。 以 3 的 倍数 为 长 度 可 以 避免 Base64 
编码 的 尾部 出 现 = 符号 。 我 们 使 用 了 URL 安全 的 Base64 编码 ， 因 此 生成 的 字符 串 中 不 会 包含 / 
或 + 字符 。 这 意味 着 密 钥 可 以 用 作 URL 的 一 部 分 ， 或 者 包含 在 报头 中 。 





























更 细致 的 加 密 方法 并 不 会 产生 更 随机 的 数据 ， 使 用 secrets 足以 确保 无 法 伪造 
已 经 分 配给 其 他 用 户 的 密 钥 。 


另 一 种 选择 是 使 用 uuiq .uuiqd4 () 来 创建 随机 的 UUID (universally unique identifier, 通用 唯 
一 标识 符 )。 它 是 一 个 包含 36 个 字符 的 字符 串 ， 其 中 32 个 为 十 六 进 制 数字 ，4 个 为 -标点 符号 。 
随机 的 UUID 也 很 难 伪造 。 


还 有 一 种 选择 是 使 用 itsdangerous 包 来 创建 JSON 格式 的 Web 签名 。 它 使 用 一 个 简单 的 加 
密 系统 来 确保 密 钥 在 对 客户 端 不 透明 的 情况 下 ， 依 然 能 为 服务 器 所 用 。 请 访问 http://pythonhosted. 
org/itsdangerous/ 以 获取 更 多 信息 。 


基于 REST 的 Web 服务 器 需要 一 个 带 有 效 密 钥 的 小 型 数据 库 ,还 可 能 需要 客户 端的 一 些 联系 
信息 。 如 果 一 个 API 请 求 包含 了 数据 库 中 已 有 的 密 钥 ,， 则 代表 请 求 是 由 相关 用 户 发 起 的 。 如 果 一 
个 API 请 求 未 包含 一 个 已 知 的 密 钥 ， 则 可 以 通过 一 个 简单 的 401 UNAUTHORIZED 响应 来 拒绝 该 
请 求 。 由 于 密 钥 本 身 是 一 个 24 字符 的 字符 串 ， 因 此 数据 库 会 非常 小 ， 很 容易 缓存 到 内 存 中 。 

该 小 型 数据 库 可 以 是 一 个 简单 文件 ， 并 由 服务 器 加 载 后 将 API Key 映射 至 需要 授权 的 权限 
上 。 可 以 在 系统 启动 时 和 检测 修改 时 间 时 读 取 该 文件 , 查看 服务 器 中 缓存 的 版 本 和 当前 的 版 本 是 
和 否 一 致 。 当 有 新 的 密 钥 可 用 时 ， 该 文件 会 更 新 ， 服 务 需 将 重新 读 取 该 文件 。 


普通 的 日 志 抓 取 可 能 足以 显示 某 个 特定 密 钥 的 使 用 情况 了 。 更 复杂 的 应 用 程序 可 能 会 在 单独 
的 日 志文 件 或 数据 库 中 记录 API 请 求 以 简化 分 析 。 



























































































































































15.5 小结 


本 章 讨论 了 如 何 将 函数 式 设计 应 用 于 通过 基于 REST 的 Web 服务 来 提供 内 容 的 问题 需求 ; 介 
绍 了 WSGI 标 准 是 如 何 应 用 于 某 些 函数 式 应 用 程序 的 ; 还 展示 了 如 何 通 过 从 应 用 程序 的 函数 所 使 
用 的 请 求 中 提取 元 素 ， 来 将 函数 式 设 计 藤 入 WSGI 的 环境 中 。 


对 于 简单 的 服务 ， 问 题 需求 通常 可 以 分 解 为 3 项 操作 : 获取 数据 、 搜 索 或 过 滤 ， 以 及 对 结果 进 
行 序列 化 。 可 使 用 3 个 函数 来 解决 这 些 问 题 : raw_qata() 、anscombe_filter() 和 serialize()。 
我 们 将 这 些 函 数 封装 在 一 个 简单 的 、 兼 容 WSGI 的 应 用 程序 中 ， 以 便 将 Web 服务 与 提取 和 过 滤 
数据 的 实际 处 理 操 作 分 离开 来 。 


另外 介绍 了 Web 服务 的 函数 是 如 何 着 眼 于 “幸福 之 路 ”并 假定 所 有 输入 都 是 有 效 的 。 如 果 
输入 无 效 , 则 普通 的 Python 异常 处 理 将 抛 出 异常 。WSGI 封 装 函 数 会 捕获 错误 并 返回 相应 的 状态 
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码 和 错误 内 容 。 


本 章 没 有 讨论 与 上 传 数据 或 接收 表单 数据 来 更 新 持久 化 数据 存储 等 相关 的 复杂 问题 。 它们 并 
不 比 获取 数据 和 序列 化 结果 复杂 ， 但 可 以 通过 更 巧妙 的 方式 来 解决 。 














对 于 简 答 的 查询 和 数据 共享 ， 可 以 使 用 小 型 Web 服务 应 用 程序 。 可 以 运用 函数 式 设计 模式 
来 确保 网 站 代码 简洁 明了 。 对 于 更 复杂 的 Web 应 用 程序 ， 应 当 考 虑 使 用 能 正确 处 理 细节 的 框架 。 











下 一 章 将 介绍 一 些 实用 的 优化 技术 ， 届 时 会 详细 介绍 第 10 章 讲 过 的 elz*u_cache 装饰 带 ， 
以 及 第 6 章 提 及 的 其 他 一 些 优化 技术 。 











优化 与 改进 








本 章 将 介绍 一 些 可 以 用 于 创建 高 性 能 函数 式 应 用 程序 的 优化 技术 ， 主 要 讨论 以 下 几 个 主题 。 


口 扩展 第 10 章 的 elru_cache 装饰 器 的 用 法 。 有 许多 方法 可 实现 记忆 化 算法 。 

口 还 将 介绍 如 何 编写 自己 的 装饰 器 。 更 重要 的 是 ， 将 介绍 如 何 使 用 callable 对 象 来 缓存 

记忆 化 的 结果 。 

口 还 会 详细 介绍 第 6 章 讲 过 的 一 些 优化 技术 ， 回 顾 尾 递归 优化 的 通用 方法 。 针 对 某 些 算法 ， 
可 以 结合 记忆 化 与 递归 实现 来 获取 良好 的 性 能 ; 而 对 于 其 他 一 些 算法 ， 记 忆 化 并 非 很 有 
帮助 ， 必 须 寻 找 其 他 改进 空间 。 

口 最 后 将 使 用 Fraction 类 来 详细 展示 一 个 优化 精度 的 案例 。 


在 大 多 数 情 况 下 , 对 程序 的 细小 改动 只 能 略微 提升 性 能 。 用 匿名 函数 代替 函数 对 性 能 影响 极 
小 。 如 果 程 序 慢 到 难以 接受 , 通常 必须 找寻 全 新 的 算法 或 数据 结构 。 用 O(n log n) 的 算法 蔡 代 O07”) 
的 算法 是 提升 性 能 的 最 佳 方 式 。 


重新 设计 算法 可 参考 http://www.algorist.com， 其 中 的 资源 有 助 于 为 特定 问题 找到 更 好 的 算法 。 

























































































16.1 记忆 化 和 缓存 


正如 第 10 章 所 提 到 的 ， 许 多 算法 可 以 受益 于 记忆 化 。 首 先 回 顾 一 些 之 前 的 示例 ， 从 而 给 出 
那些 能 获 益 于 记忆 化 的 函数 类 型 特征 。 

第 6 章 介 绍 了 几 种 常用 的 递归 。 最 简单 的 递归 形式 是 尾 递 归 , 它 的 参数 易于 和 缓存 中 的 值 匹 
配 。 如 果 参 数 是 整 型 值 、 字 符 串 或 者 实例 化 的 集合 , 那么 可 以 快速 比较 参数 来 确定 是 否 缓存 了 先 
前 的 计算 结 

从 这 些 示 例 中 可 以 看 出 ,阶乘 计算 或 查找 裴 波 那 契 数 等 整 型 值 计 算 的 性 能 都 会 显著 提升 。 适 
用 于 整 型 值 的 数值 算法 还 包括 查找 质 因 子 和 计算 整数 的 需 次 方 。 


斐 波 那 契 数 的 递归 版 本 的 计算 结果 Fo 包含 两 个 尾 递归 调用 ， 定 义 如 下 : 
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这 可 以 转化 成 一 个 循环 ,但 设计 上 的 任何 改变 都 需要 考量 ,递归 定义 的 记忆 化 版 本 会 非常 快 ， 
并 且 无 须 过 多 地 思考 设计 。 


Syracuse 函数 是 一 类 用 于 计算 分 形 值 的 函数 。Syracuse 函数 S(n) 定 义 如 下 : 




















加 
3n+1 ”nn 为 奇数 
递归 调用 后 ,会 得 到 一 个 从 起 始 值 n 开始 的 数值 链 C: 


n 、 汪 
es -| 为 偶数 


CUD =[n,S(n),S(S(n), SCS(S(m)),*]=[S" ODS ODS (nm),S (nm),] 


奇偶 归 一 猜想 ( Collatz conjecture ) 是 一 个 结果 总 为 1 的 Syracuse 函数 。 由 S(1) 开 始 的 值 会 
形成 1, 4,2, 1,… 的 循环 。 探 索 该 函数 的 行为 需要 记忆 化 的 中 间 结 果 。 一 个 有 趣 的 问题 是 定位 极 长 
序列 。 请 参阅 https://projecteuler.net/problem=14， 了 解 有 关 谨 慎 使 用 绥 存 的 问题 。 


Syracuse 函数 的 递归 应 用 是 一 个 具有 “吸引 子 ” 的 函数 示例 ， 其 中 数值 被 “吸引 ”至 1。 在 
一 些 高 维 函 数 中 , 吸引 子 可 以 是 一 条 线 ， 或 是 分 形 曲线 。 当 吸引 子 是 一 个 点 时 ， 记 忆 化 会 有 所 帮 
助 ， 和 否则 由 于 每 个 分 形 值 都 是 唯一 的 ， 记 忆 化 可 能 会 成 为 障碍 。 


在 处 理 集合 时 , 缓存 的 好 处 可 能 会 消失 。 如果 集合 的 整 型 值 、 字符 串 或 元 组 的 数量 碰巧 相同 ， 
那么 集合 可 能 会 重复 ， 从 而 节省 时 间 。 然而， 如 果 需 要 对 集合 进行 多 次 计算 ,那么 最 好 手动 记忆 
化 : 执行 一 次 计算 并 将 结果 赋 给 变量 。 


在 使 用 可 迭代 对 象 、 生 成 器 函数 和 其 他 惰性 对 象 时 ,缓存 或 记忆 化 是 无 用 的 。 为 了 提供 源 序 
列 中 的 下 一 个 值 ， 惰 性 函数 会 执行 最 少量 的 工作 。 


包含 度量 的 原始 数据 通常 使 用 浮 点 数 。 由 于 浮 点 数 之 间 的 精确 比较 可 能 无 法 正常 工作 , 因此 
中 间 结 果 的 记忆 化 也 可 能 不 起 作用 。 


然而 , 包含 计数 的 原始 数据 可 能 会 受益 于 记忆 化 。 由 于 它们 都 是 整 型 值 ， 因 此 可 以 确定 整 型 
比较 (可 能 ) 会 避免 重新 计算 先前 的 值 。 一 些 应 用 于 计数 的 统计 函数 会 获 益 于 使 用 fractions 
模块 而 非 浮 点 数 。 当 用 Fraction (x,y) 方 法 代替 x/y， 便 能 进行 精确 值 匹配 。 可 以 使 用 
float (some_fraction) 方 法 来 生成 最 终结 果 。 
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.2 ”指定 记忆 化 
记忆 化 的 基本 思想 十 分 简单 , 用 elru_cache 装饰 器 即 可 捕获 。 可 以 将 该 装饰 器 应 用 于 任何 




















函数 来 实现 记忆 化 。 在 某 些 情况 下 ,可 以 用 更 特定 的 方式 来 改进 此 通用 思想 。 下 面 在 大 量 潜在 可 
优化 的 多 值 函数 中 选取 一 个 ， 并 在 更 复杂 的 案例 研究 中 考察 男 一 个 。 








二 项 式 由 表示 n 个 不 同事 物 按 组 大 小 m 排列 方式 的 数量 ， 其 值 如 下 所 示 : 


|- nl 
m) ml(n—m)! 


显然 , 应 该 缓存 单独 计算 的 阶乘 值 ， 而 不 是 重新 计算 所 有 的 乘积 ,然而 缓存 整个 二 项 式 计算 

















也 可 能 有 用 。 


下 面 创建 一 个 包含 多 个 内 部 缓存 的 callable 对 象 。 需 要 用 到 的 辅助 函数 如 下 : 


from functools import reduce 
from operator import mul 
from typing import Callable, Iterable 


prod: Callable[[Iterable[int]], int] = lambda x: reduce(mul, x) 
函数 prog () 计 算 了 可 迭代 数值 的 乘积 。 将 它 定义 为 了 使 用 * 运 算 符 的 归 约 。 
以 下 带 有 两 个 缓存 的 callable 对 象 使 用 了 该 prod() 函数 。 


class Binomial: 
def 7 nit. (Self).: 
self.fact_cache = {} 
self.bin cache = {} 
def fact (self, n: int) ->int: 
if n not in self.fact_cache: 
self.fact_cache[n] = prod(range(1, n+1l1)) 
return Self.fact_cache [mn] 
def -Cal1 (Be 人 3 int, m: int). -3- int:: 
if (n, m) not in self.bin cache: 
self.bin cache[n, m] = ( 
self.fact (n)//(self.fact (m)*self.fact (n-m))) 
return self.bin cache[ln, ml] 


上 面 创建 了 两 个 缓存 : 一 个 用 于 阶乘 值 ， 另 一 个 用 于 二 项 式 系数 值 。 内 部 的 fact () 方 法 使 























用 了 fact_cache 属性 。 如果 值 不 在 缓存 中 , 则 进行 计算 并 将 其 添加 到 缓存 中 。 外 部 的 _ call__() 
方法 以 类 似 的 方式 使 用 了 bin_cache 属性 : 如 果 已 经 计算 过 了 特定 二 项 式 ， 则 直接 返回 该 值 ; 


如 一 

















没有 ， 则 会 用 内 部 的 fact () 方 法 计算 一 个 新 值 。 
可 以 如 下 所 示 使 用 上 述 callable 类 : 
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>>> binom = Binomial() 
>>> binom(52, 5) 


2598960 
这 显示 了 如 何 从 类 中 创建 一 个 callaple 对 象 ， 然 后 在 特定 的 一 组 参数 上 调用 该 对 象 。 将 








52 张 牌 派 分 为 一 手 5 张 牌 ， 则 会 有 260 万 种 可 能 。 


16.3 尾 递 归 优 化 
第 6 章 等 处 介绍 了 如 何 将 简单 的 递归 优化 为 for 循环 。 以 如 下 阶乘 的 简单 递归 定义 为 例 : 





: 1 n=0 
nl!= 
1X (7 一 ])! nz#0 








优化 递归 的 通用 方法 如 下 。 

口 设计 递归 。 这 意味 着 可 以 测试 基本 情形 和 简单 函数 形式 的 递归 情形 ， 尽 管 慢 但 结果 是 正 
确 的 。 简 单 定义 如 下 : 

def fact'(ns 1nt) = 1nt: 


if Nee 0 Ketel 
else: return n*fact (n-1) 


口 如 果 递 归 的 最 后 有 一 个 简单 的 调用 ， 则 用 for 循环 替代 递归 ， 其 定义 如 下 : 


def facti(n: int) -> int: 























if mn "Qs Ketwuri 人 

£4 

for i in range(2,n): 
上 二; 下 玉宇 

return 工 














当 递 归 出 现在 一 个 简单 函数 的 最 后 , 则 将 它 描述 为 尾 调用 优化 。 许 多 编译 器 会 将 其 优化 成 一 
个 循环 。Python 没有 优化 编译 器 ， 不 会 进行 这 种 尾 调用 转换 。 


这 种 模式 很 常用 。 执 行 尾 调 用 优化 可 以 提升 性 能 ， 并 突破 可 执行 递归 数量 的 上 限 。 


在 进行 任何 优化 前 ， 函 数 必须 能 正常 运作 。 对 此 ， 一 个 简单 的 aoctest 字符 串通 常 就 足够 
了 。 可 以 对 阶乘 函数 做 如 下 注释 : 


def fact(rns Int) => int: 
"""Recursive Factorial 
>>> fact(0) 
1 
>>> fact(1) 
1 
>>> fact(7) 
5040 
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EF» 和 ee 0 EEE 
else: return n*fact (n-1) 
这 样 就 添加 了 两 个 边缘 情况 : 显 式 的 基本 情形 和 基本 情形 后 的 第 一 项 。 还 添加 了 一 个 涉及 多 
次 迭代 的 项 ， 让 我 们 得 以 调整 代码 。 


当 有 更 复杂 的 函数 组 合 时 ， 可 能 需要 执行 以 下 命令 : 


binom example = """ 
>>> binom = Binomial() 
>>> binom(52, 5) 
2598960 








_test ={ 
"binom example": binom example, 


} 


函数 aoctest .testmod() 使 用 了 变量 _test ,字典 中 所 有 和 变量 _test 相关 联 的 值 
都 用 于 了 doctest 字符 串 。 这 是 测试 复合 函数 特性 的 一 种 简便 方法 。 由 于 它 测试 了 多 个 软件 组 
件 的 集成 性 ， 因 此 也 称 其 为 集成 测试 。 


一 组 可 用 的 测试 代码 会 利于 优化 ， 并 便于 确认 优化 的 正确 性 。 下 面 是 一 名 描述 优化 的 名 言 : 


“让 程序 错 上 加 错 并 不 是 罪 。” 














Jon Bentley 


这 人 句 话 出 自 《 编 程 珠 丽 ( 续 )》 一 书 的 “计算 机 科学 能 言 集 ” 章 。 重 要 的 是 应 该 只 优化 正确 
的 代码 。 


16.4 优化 存储 


优化 没有 通用 规则 。 我 们 通常 关注 性 能 优化 ， 因 为 可 以 使 用 一 些 工具 (例如 大 O 复杂 性 度量 ) 
来 判断 算法 能 否 有 效 地 解决 给 定 的 问题 。 通常 单独 处 理 存储 优化 : 可 以 研究 算法 的 流程 ,并 估计 
不 同 存储 结构 所 需 的 存储 空间 。 


在 许多 情况 下 , 这 两 种 考量 是 相互 对 立 的 。 在 某 些 情况 下 ,一 个 性 能 非常 好 的 算法 可 能 需要 
大 型 数据 结构 。 如 果 不 能 大 幅 增加 所 需 的 存储 空间 ， 就 无 法 扩展 这 种 算法 。 我 们 的 目标 是 设计 一 
种 速度 快 且 所 用 的 存储 量 可 接受 的 算法 。 

我 们 可 能 需要 花 时 间 研 究 算法 的 替代 方法 ， 从 而 找到 一 种 能 合理 平衡 时 空 (space-time 
tradeo 企 ) 的 方法 。 在 维基 百科 的 链接 里 可 以 找到 一 些 通用 的 优化 技术 。 


Python 中 的 一 种 内 存 优化 技术 是 使 用 可 迭代 对 象 。 它 具有 适当 实例 化 集合 的 一 些 属性 , 但 不 
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一 定 占 用 存储 空间 。 不 适用 于 可 迭代 对 象 的 运算 很 少 ( 如 len () 函数 )。 对 于 其 他 运算 ,节省 内 
存 的 特性 使 得 程序 可 以 处 理 非常 大 的 集合 。 





16.5 ”优化 精度 

少数 情况 下 , 需要 优化 计算 的 精度 。 这 有 一 定 的 挑战 性 , 而 且 可 能 需要 一 些 相 当 高 级 的 数学 
运算 来 确定 给 定 方法 的 精度 限制 。 

在 Python 中 , 可 以 用 fractions .Fraction 值 代替 浮 点 近似 。 对 于 某 些 应 用 , 这 样 做 可 以 
得 到 比 浮 点 数 更 精确 的 解 ， 因 为 相 比 浮 点 尾数 ， 分 子 和 分 母 使 用 了 更 多 比特 。 


使 用 decimal .Decimal 值 来 处 理 货币 十 分 重要 。 一 种 常见 的 错误 是 使 用 float 值 。 当 使 
用 float 值 时 ,由 于 作为 输入 的 Decimal 值 与 浮 点 数 使 用 的 二 进 制 近似 之 间 的 不 匹配 ， 从 而 引 
入 了 额外 的 噪声 位 。 使 用 Decimal 值 可 以 防止 引入 微小 的 误差 。 


在 许多 情况 下 ,可 以 对 Python 程序 进行 小 的 改动 ,将 float 值 转换 为 Fraction 或 Decimal 
值 。 在 处 理 超 越 函 数 时 ， 这 种 改动 不 一 定 有 用 。 超 越 函数 的 定义 涉及 无 理 数 。 




















根据 用 户 需 求 降低 精度 


对 于 某 些 计算 , 分 数值 可 能 比 浮 点 数 更 直观 , 这 是 以 一 种 用 户 能 理解 并 做 出 处 理 的 方式 来 展 
示 统 计 结 果 的 一 部 分 。 


例如 , 卡 方 检验 通常 涉及 计算 实际 值 和 预期 值 之 间 的 x 比较。 随后 可 以 用 这 个 比较 值 来 测试 
xX 的 累积 分 布 函数 。 当 预期 值 和 实际 值 没有 特定 关系 〈 也 称 “ 空 关系 ”) 时 ， 变 化 将 是 随机 的 ， 
这 个 值 往往 很 小 。 当 接受 了 零 假设 后 ， 需 要 在 其 他 地 方 寻找 它们 的 关系 。 当 实际 值 与 期 望 值 区 别 
较 大 时 ， 我 们 可 能 会 拒绝 零 假 设 ， 而 进一步 探索 以 确定 两 者 关系 的 准确 性 质 。 


对 于 选 定 的 达 值 和 给 定 的 自由 度 ， 决 策 通 常 基于 累积 分 布 函数 ( cumulative distribution 
function，CDF )。 尽 管 表格 中 的 CDF 值 大 多 数 是 无 理 数 ， 但 通常 不 会 保留 超过 2 个 或 3 个 小 数 。 
它 只 是 一 个 决策 工具 ，0.049 和 0.05 在 实际 意义 上 没有 区 别 。 


拒绝 零 假 设 广泛 使 用 的 概率 是 0.05， 这 是 一 个 小 于 1/20 的 Fraction 对 象 。 在 向 用 户 展示 
数据 时 ， 可 以 将 结果 描述 为 分 数 形式 ， 而 像 0.05 这 样 的 值 不 怎么 直观 。 用 1/20 来 描述 关联 的 几 
率 有 助 于 人 们 感知 这 种 关联 的 可 能 | 



















































































16.6 ”案例 研究 ; 卡 方 决策 


下 面 介绍 一 个 常见 的 统计 决策 。 在 http:/wwwitl.nist.gov/div898/handbook/prc/section4/prc45.htm 
中 有 对 该 决策 的 详细 描述 。 
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这 是 一 个 关于 数据 是 否 随机 分 布 的 卡 方 决策 。 为 了 做 出 这 个 决策 ， 需 要 计算 一 个 预期 分 布 ， 
并 将 观察 到 的 数据 与 预期 进行 比较 。 相 差 较 大 意味 着 需要 进一步 研究 。 相 差 不 大 意味 着 可 以 使 用 
零 假 设 ， 因 为 没什么 值得 研究 了 ， 即 这 些 差异 仅仅 是 随机 变化 造成 的 。 


下 面 介绍 如 何 使 用 Python 来 处 理 数据 。 首 先 介 绍 一 些 不 属于 案例 研究 的 背景 知识 ， 但 常 出 
现在 EDA 应 用 程序 中 。 需 要 收集 原始 数据 并 生成 有 用 的 可 供 分 析 的 汇总 信息 。 


在 生产 质量 保障 过 程 中 ， 将 有 硅 片 缺陷 的 数据 收集 到 数据 库 中 。 可 以 使 用 SQL 查询 来 提取 
缺陷 细节 供 后 续 分 析 。 例 如 查询 语句 可 能 如 下 所 示 : 


SELECT SHIFT, DEFECT_CODE, SERIAL_ NUMBER FROM some tables; 


该 查询 的 输出 将 是 带 有 各 个 缺陷 详情 的 .csv 文件 。 


shift,defect_code, serial_ number 

1,None,12345 

1,None,12346 

1,A,12347 

1,Bi12348 

and so on. for thousands of wafers 

需要 汇总 先前 的 数据 ， 可 以 在 SQL 查询 层面 使 用 coUNT 语句 和 GROUP BY 语句 进行 汇总 ， 
也 可 以 在 Python 应 用 层面 进行 汇总 。 尽 管 通常 认为 纯 数据 库 汇总 更 高 效 ， 但 并 非 总 是 如 此 。 在 
某 些 情况 下 ， 对 原始 数据 的 简单 提取 和 用 Python 程序 进行 汇总 可 能 比 SQL 汇总 更 快 。 如 果 看 重 
性 能 ， 那 么 必须 衡量 这 两 种 方法 ， 而 不 是 设想 数据 库 操 作 总 是 最 快 的 。 


在 某 些 情况 下 , 可 以 高 效 地 从 数据 库 中 获取 汇总 数据 。 汇总 必须 包含 三 个 属性 : 轮换 (shift )、 
缺陷 类 型 和 观测 到 的 缺陷 数量 。 汇 总 数据 如 下 所 示 : 































































































shift,defect_code,count 
LAS 

2,A,26 

SAN3 

and so on. 


输出 会 显示 轮换 和 缺陷 类 型 的 所 有 12 种 组 合 。 
稍 后 将 详细 介绍 如 何 读 取 原始 数据 并 创建 汇总 。 这 便 是 Python 的 强大 之 处 : 处 理 原 始 源 数据 。 


需要 观察 并 比较 轮换 和 缺陷 个 数 的 总 体 预 期 。 如 果 观 测 到 的 数量 和 预期 数量 间 的 差异 可 以 归 
因 于 随机 波动 ， 便 要 接受 零 假 设 ， 即 没有 什么 错误 点 值得 关注 。 如 果 这 些 数字 不 符合 随机 变化 ， 
那么 就 有 问题 需要 进一步 研究 。 



































16.6.1 使 用 counter 对 象 过 滤 和 约 分 原始 数据 
我 们 把 基本 的 缺陷 计数 表示 为 collections.Counter 参数 。 下 面 将 根据 原始 数据 中 的 轮 
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换 和 缺陷 类 型 来 构造 缺陷 计数 。 以 下 代码 从 . csv 文件 中 读 取 了 一 些 原 始 数据 。 


from typing import TextIO 

import csy 

from collections import Counter 
from types import SimpleNamespace 


def defect_reduce (input_file: TextIO) -> Counter: 
rdr = csv.DictReader (input_file) 


assert set (rdr.fieldnames) == set( 

["defect_type", "serial number", "shift"]) 
rows_ns = (SimpleNamespace(**row) for row in rdr) 
defects = ( 


(row.shift, row.defect_type) 

for row in rows_ ns if row.defect_type) 
tally = Counter (defects) 
return tally 


上 述 函 数 会 基于 通过 input 参数 提供 的 打开 文件 来 创建 一 个 字典 读 取 器 。 我 们 确认 了 列 名 
需 和 3 个 预期 的 列 名 相 匹 配 。 在 某 些 情况 下 ,文件 会 包含 额外 必须 被 忽略 的 列 ， 此 时 断言 会 类 似 
于 set (rdr.fieldnames) <= set([...])， 用 于 确认 实际 的 列 名 是 所 需 列 的 子 集 。 


我 们 为 每 一 行 创建 了 一 个 types .SimpleNamespace 人 参数。 文件 中 的 列 名 都 是 有 效 的 
Python 变量 名 , 便于 将 字典 转换 为 命名 空间 对 象 , 使 得 我 们 可 以 用 稍 简 单 的 语法 来 引用 行 中 的 项 。 
具体 而 言 , 后 面 的 生成 器 表达 式 使 用 row.shift 和 row.defect_type 而 不 是 row['shift'] 
和 row['defect_type'] 作 为 引用 。 


可 以 使 用 更 复杂 的 生成 器 表达 式 来 组 合 映射 和 过 滤 。 过 滤 每 一 行 , 以 忽略 那些 没有 代码 缺陷 
的 行 。 对 于 有 代码 缺陷 的 行 ， 可 以 映射 一 个 表达 式 ， 基 于 row. shift 和 Tow.defect_type 引 
用 创建 一 个 二 元 组 。 


在 某 些 应 用 程序 中 , 过 滤器 不 会 是 row.defect_type 这 样 的 简单 表达 式 , 可 能 需要 编写 更 
复杂 的 条 件 语句 。 在 这 种 情况 下 ,使 用 filter () 函数 将 复杂 条 件 应 用 于 提供 数据 的 生成 器 表达 
式 可 能 会 有 帮助 。 

给 定 一 个 生成 (snift，daefect) 元 组 序列 的 生成 器 ， 可 以 通过 从 生成 器 表达 式 中 创建 一 个 
Counter 对 象 来 汇总 它们 。 创 建 该 counter 对 象 来 处 理 惰 性 生成 器 表达 式 ， 该 表达 式 会 读 取 源 
文件 、 从 行 中 提取 字段 、 过 滤 行 并 汇总 计数 。 

使 用 aefect_redauce () 函数 来 收集 和 汇总 数据 ， 如 下 所 示 : 


with open("qgqa_data.csv") as input: 
defects = defect_ reduce (input) 
print (defects) 


我 们 可 以 打开 一 个 文件 ， 收 集 并 显示 缺陷 信息 ， 以 确保 正确 地 汇总 了 轮换 和 缺陷 类 型 。 由 于 
结果 是 一 个 counter 对 象 ,因此 如 果 有 其 他 源 数据 ,就 可 以 将 它 与 其 他 counter 对 象 结合 起 来 了 。 
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值 aefects 如 下 所 示 : 

COU 
(7 A') 全 人 ) -人 PAT 2 
和 本 Oy 
{4 A') 站 入 D') 二 及 不意 和 





通过 轮换 ('1'，'2'，or '3') 和 缺陷 类 型 (从 'A' 到 ， 
总 数据 的 其 他 一 些 输入 ， 能 体现 数据 在 汇总 级 别 的 常规 用 法 。 

















34， 


D' ) 组 织 了 缺陷 计数 。 下 面 介绍 汇 





一 旦 读 取 了 数据 ,下 一 步 就 是 生成 两 个 概率 , 这 样 就 可 以 正确 地 计算 每 个 轮换 和 每 种 缺陷 的 
预期 缺陷 了 。 我 们 不 想 把 总 缺陷 数 除 以 12， 因 为 这 并 不 能 反映 实际 的 轮换 或 者 缺陷 类 型 。 轮 换 
可 能 或 多 或 少 具 有 相同 效果 , 但 缺陷 频率 肯定 不 会 相似 。 我 们 期 望 一 些 缺陷 是 非常 罕见 的 ， 另 一 




















些 则 更 为 常见 。 


16.6.2 ” 读 取 汇 总 信息 




















作为 读 取 所 有 原始 数据 的 替代 方法 , 可 以 只 考虑 处 理 汇总 计数 。 我 们 希望 创建 一 个 类 似 于 之 





前 示例 的 counter 对 象 ， 它 会 以 轮换 班 和 缺陷 代码 作为 键 ， 
总 信息 ， 只 需 从 输入 字典 中 创建 一 个 counter 对 象 。 


负责 读 取 汇总 数据 的 函数 如 下 : 


from typing import TextIO 

from collections import Counter 

import csyv 

def aefect_counts (Source: TextIO) -> Counter: 
rdr = csv.DictReader (source) 











assert set (rdr.fieldnames) == set( 
["defect_ type", "serial number", "shift"]) 
rows_ns = (SimpleNamespace(**row) for row in rd 


convert = mapl( 
lambda d: ((d.shift, d.defect_code), int(d. 
rows_ns) 

return Counter (Qict (convert)) 


需要 一 个 打开 的 文件 作为 输入 。 首 先 创建 一 个 csv .DictReader () 函数 ,来 解析 从 数据 库 








以 缺陷 计数 作为 值 。 对 于 给 定 的 汇 


工 ) 


Count))., 





中 获得 的 原始 CSV 数据 。 其 中 包含 了 一 条 assert 语句 来 保证 文件 包含 了 预期 的 数据 。 





该 变 体 使 用 匿名 对 象 为 每 行 创建 一 个 二 元 组 ,这些 二 元 组 


























具有 从 轮换 和 缺陷 代码 构建 而 来 的 


复合 键 ， 以 及 整 型 转换 后 的 计数 。 生 成 的 结果 是 一 个 类 似 于 ( (shift,defect)，count)， 











((shift,qdefect)，count)，...) 的 序列 。 当 把 lambqda 
一 个 能 生成 二 元 组 序列 的 生成 器 函数 。 

















映射 到 row_ns 生成 器 后 ， 会 得 到 


然后 从 二 元 组 集合 创建 一 个 字典 ， 并 使 用 这 个 字典 构建 一 个 Counter 对 象 。 这 个 Counter 








对 象 易于 和 其 他 counter 对 象 组 合 在 一 起 ， 这 让 我 们 可 以 结 


合 从 多 个 数据 源 获取 的 汇总 详情 。 
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该 示例 中 只 有 一 个 数据 源 。 
可 以 将 这 个 单一 源 赋 给 aefects 变量 ， 其 值 如 下 所 示 : 


Counter (3. Or Mo (rT TEs do 20 EE) Bs 
全 A339 2 Bee 3S... (2 A's 26:, 
Cs} Be 2 NB DN S205 (3m TB LA 
Ce A 3 5 BA 2 eh 有 由) 





这 与 此 前 显示 的 详情 汇总 相符 。 不 同 的 是 ， 此 时 已 经 汇总 了 原始 数据 。 这 种 情况 通常 出 现在 
从 数据 库 提 取 了 数据 并 使 用 SQL 进行 分 组 操作 的 时 候 。 





16.6.3 counter 对 象 的 求 和 计算 


我 们 需要 根据 轮换 和 类 型 计算 缺陷 的 概率 ,为 了 计算 预期 的 概率 ,需要 首先 进行 简单 的 求 和 。 
下 面 对 所 有 缺陷 的 值 进行 求 和 ， 可 以 通过 执行 以 下 命令 计算 得 到 : 


total = sum(defects.values()) 


这 是 直接 从 赋 给 sefects 变量 的 counter 对 象 中 计算 得 到 的 , 会 显示 样本 集中 共有 309 个 
缺陷 。 


还 需要 通过 轮换 和 类 型 来 获取 缺陷 , 这 意味 着 需要 从 原始 缺陷 数据 中 提取 两 种 子 集 。 按 轮换 
提取 将 只 使 用 counter 对 象 中 (shift,defect type) 键 的 前 半 部 分 ， 按 类 型 提取 则 使 用 键 值 
对 的 后 半 部 分 。 


可 以 从 赋值 给 defects 变量 的 初始 counter 对 象 集合 中 提取 并 创建 额外 的 Counter 对 象 
来 进行 汇总 。 按 轮换 汇总 如 下 所 示 : 
shift_ totals = Sum( 
(Counter({s: defects[s, d]}) for s, d in defects), 


Counter() # start value = empty Counter 


) 


这 样 就 创建 了 单独 的 counter 对 象 集合 。 这 些 对 象 都 具有 一 个 轮换 s 作为 键 ， 以 及 相应 的 
缺陷 计数 aefects [s,d]。 生 成 器 表达 式 会 创建 12 个 这 样 的 counter 对 象 用 于 从 4 种 缺陷 和 3 
种 轮换 的 所 有 组 合 中 提取 数据 。 可 以 使 用 sum ( ) 函数 来 组 合 counter 对 象 ， 以 此 获得 按 轮换 组 
织 的 3 组 汇总 信息 。 
























































对 于 sum() 函数 ， 不 能 使 用 默认 的 初始 值 0， 必 须 提 供 一 个 空 的 Counter () 对 
象 作 为 初始 值 。 
创建 类 型 汇总 的 表达 式 类 似 于 创建 轮换 汇总 的 表达 式 。 


type_totals = sum( 
(Counter({d: qefects[s，q]}) for s, d in defects), 
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Counter () # start Value = empty Counter 
) 


使 用 缺陷 类 型 a 而 不 是 轮换 类 型 作为 键 ， 创 建 了 十 余 个 counter 对 象 ， 否 则 结果 会 一 样 。 
轮换 总 计 如 下 : 
Counter ({'3': 119, '2': 96, '1': 94)) 


缺陷 类 型 总 计 如 下 : 


Counter(E "Cs L128 “A Th "Bi 60 "Dr S38 











将 汇总 结果 保存 为 Counter 对 象 , 而 不 是 创建 简单 的 aict 对 象 , 甚至 1ist 实例 。 之 后 通 


常会 将 它们 作为 普通 字典 来 使 用 ， 然 而 在 某 些 情况 下 ， 需 要 合适 的 counter 对 象 而 非 精简 的 字 
典 对 象 。 


16.6.4 ”counter 对 象 的 概率 计算 


前 面 在 两 个 独立 的 过 程 中 读 取 了 数据 并 计算 了 汇总 信息 。 有 时 需要 在 读 取 初 始 化 数据 时 创建 











汇总 信息 ， 这 种 优化 能 节省 处 理 时 间 。 可 以 编写 一 个 更 复杂 的 输入 约 分 操作 ,来 计算 所 有 总 数 、 
轮换 总 数 和 缺陷 类 型 总 数 。 每 次 将 这 些 counter 对 象 构 建 为 一 项 。 





前 面 重点 介绍 了 使 用 counter 实例 ， 因 为 它们 很 灵活 。 对 于 数据 采集 的 任何 更 改 仍然 会 创 


建 出 Counter 实例 ， 并 且 不 会 更 改 后 续 的 分 析 。 


总 缺陷 个 数 中 占 比 的 Fraction 对 象 。 类 似 地 ， 字典 P_type 将 缺陷 类 型 映射 到 一 个 表示 类 型 
总 缺陷 个 数 中 占 比 的 Fraction 对 象 。 

















按 轮换 和 按 缺 陷 类 型 计算 的 缺陷 概率 如 下 : 


from fractions import Fraction 

P_shift = { 
shift: Fraction(shift_ totals[shift], total) 
for shift in sorted(shift_ totals) 

} 

P_type = { 
type: Fraction(type totals[type], total) 
for type in sortedl(type totals) 

} 


这 样 就 创建 了 两 个 映射 P_shift 和 P_type。 字典 P_shift 将 轮换 映射 到 一 个 表示 轮换 
































选用 了 Fraction 对 象 来 保留 所 有 输入 值 的 精度 , 因为 在 处 理 这 样 的 计数 时 , 我 们 希望 得 到 


更 直观 的 概率 值 ， 方 便 人 们 查看 数据 。 


数据 P_snift 的 值 如 下 所 示 : 
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{tL :Eracticon(9 3309 和 072 人 325 103); 
'3': Fraction(119, 309)} 


数据 P_type 的 值 如 下 所 示 : 


{'A': Fraction(74, 309), 'B': Fraction(23, 103), 
‘Cr Eraction(128, 309), "BD': ,Fraction(38; 309)3 


对 于 一 些 人 来 说 ，32/103 或 96/309 这 样 的 值 比 0.3106 更 有 意义 。 从 Fraction 对 象 中 获得 
float 值 很 容易 ， 稍 后 将 展示 这 一 点 。 
在 Python 3.6 中 , 字典 中 的 键 将 保留 源 数据 中 键 的 顺序 。 在 之 前 的 Python 版 本 中 , 键 的 顺序 
是 不 可 预测 的 。 在 这 个 示例 中 ， 顺 序 无 关 紧要 ， 但 当 键 的 顺序 可 预测 时 ， 会 有 助 于 调试 工作 。 


所 有 轮换 似乎 与 缺陷 产 出 处 于 同一 水 平 。 缺陷 类 型 变化 无 常 , 这 是 典型 的 情况 。 缺陷 c 似乎 
是 相对 常见 的 问题 ， 缺 陷 B 则 不 那么 常见 ， 也 许 第 二 个 缺陷 在 更 复杂 的 情况 下 才 会 出 现 。 



























































16.7 计算 期 望 值 并 显示 列 联 表 


预期 的 缺陷 产 出 是 一 个 组 合 概率 。 下 面 将 计算 轮换 缺陷 与 缺陷 类 型 概率 的 乘积 ， 为 此 需要 
计算 轮换 和 缺陷 类 型 组 合 的 所 有 12 种 概率 。 可 以 对 观测 到 的 数字 进行 加 权 ， 并 计算 缺陷 的 详细 


计算 期 望 值 的 代码 如 下 所 示 : 


expected = { 
(s, t): P_shift[s]*P_ typelt]*total 
for t in P_type 
for s in P_shift 


} 


我 们 会 创建 一 个 与 defectscounter 对 象 相似 的 字典 。 该 字典 会 有 一 个 带 有 键 值 的 二 元 组 
序列 ， 其 中 键 是 轮换 和 缺陷 类 型 的 二 元 组 。 字 典 是 通过 一 个 生成 器 表达 式 构建 而 来 的 ， 它 显 式 枚 
举 了 P_shift 和 P_type 字典 中 所 有 键 的 组 合 。 


字典 expected 的 值 如 下 所 示 : 












































{ : Fraction(2208, 103),，, 
: Fraction(1216, 103), 
: Fraction(4522, 309),，, 
‘PACtionm(2368. T1033).y 
6956, 309); 
» Feaction(2162;. 103); 

) 


: Fraction(2737, 103), 
» Fraction(12032;, 309)5 
Fraction(15232., 309), 
: Fraction(4096, 103), 
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(ES88OS7T 33309979 ， 
5727030993 了 

映射 的 每 一 项 都 以 轮换 和 缺陷 类 型 作为 键 , 日 它 与 一 个 Fraction 值 相 关联 , 这 个 值 基于 轮 
换 次 数 的 缺陷 概率 , 以 及 缺陷 类 型 乘 以 总 缺陷 次 数 的 缺陷 概率 。 一 些 分 数 约 分 了 , 例如 值 6624/309 
可 以 简化 为 2208/103。 


大 的 数 不 适 合用 分 数 表示 ， 将 其 呈现 为 float 值 通常 更 容易 。 小 数值 ( 如 概率 ) 有 时 用 分 
数 表 示 则 更 易于 理解 。 

然后 将 成 对 输出 观测 到 的 次 数 和 预期 的 次 数 , 这 有 助 于 可 视 化 数据 。 我 们 将 创建 如 下 内 容 来 
汇总 观测 到 的 值 和 预期 的 值 : 











obs exp obs exp obs exp obs exp 

1 22s5.L 2 .2209.9 45 38.94 13, 11.56 94 
26 22.99 3 24: 二 34..39077 5. 11%81 96 
33, 8950 Ty .6.57 49 “49:29 20 14.63 119 
74 69 128 38 309 


这 里 显示 了 12 个 单元 格 。 每 个 单元 格 的 值 都 包含 观测 到 的 缺陷 数量 和 预期 的 缺陷 数量 。 每 
一 行 的 最 后 是 轮换 总 数 ， 每 一 列 的 最 下 面 是 缺陷 总 数 。 


在 某 些 情况 下 ， 可 以 将 这 种 数据 导出 为 CSV 格式 并 构建 一 个 电子 表格 。 在 其 他 一 些 情 况 
下 , 可 以 构建 一 个 HTML 版 本 的 列 联 表 , 并 将 布局 细节 留 给 浏览 器 去 处 理 。 这 里 显示 的 是 纯 文 
本 版 本 。 


以 下 代码 包含 的 一 系列 语句 用 于 创建 如 前 所 示 的 列 联 表 : 


print ("obs exp "*lenl(type_ totals)) 
for s in sorted(shift totals): 
pairs = [ 
f"{defects[s,t]:3d} {float (expected[s,t]):5.2f}" 
for 七 in sorted(type_ totals) 











] 
从 到 六 起 人 下 下 全 TyJOlIN(palires,)y Shift totalstLesl 3a; ") 
footers = [ 
f"{type_totals[t]:3d} " 
for t in sorted(type_totals)] 
BrFlint(f"m {STOLn(footere)} (toLal3d}”) 
这 样 会 将 缺陷 类 型 展开 成 一 行 。 前 面 已 经 编写 了 足够 多 的 obsexp 列 标题 来 涵盖 所 有 缺陷 类 
型 。 对 于 每 个 轮换 ， 会 生成 一 行 观测 值 和 实际 值 的 配对 ,并 在 后 面 加 上 总 的 轮换 数 。 底 部 将 生成 
一 行 包含 缺陷 类 型 总 数 和 总 计数 量 的 脚注 。 


这 样 的 列 联 表 有 助 于 可 视 化 对 观测 值 和 期 望 值 的 比较 。 可 以 计算 这 两 组 值 的 卡 方 值 ,以 便于 
我 们 确定 数据 是 随机 的 或 是 值得 进一步 研究 。 
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16.7.1 计算 卡 方 值 


值 疙 基于 2 ， 其 中 e 是 预期 值 ，o 是 观测 到 的 值 。 示 例 中 有 两 个 维度 : 轮换 s 和 忽 














了 类 型 (因此 最 终 可 以 表示 为 2- 也 , 到 2 








可 以 如 下 所 示 计 算 该 特定 公式 的 值 : 


diff = lambda e, o: (e-o)**2/e 


chi2 = sum( 
diff (expected[s, t], defects[ls, t]) 
for s in shift totals 
for t in type totals 
) 
这 样 就 定义 了 一 个 小 型 匿名 函数 来 优化 计算 。 这 使 得 只 需 执 行 一 次 expected[s,t] 和 


defects[s,t] 属 性 的 计算 ,即便 两 处 用 到 了 期 望 值 。 对 于 这 个 数据 集 ， 最 终 的 x 值 为 19.18。 


由 于 有 3 个 轮换 和 4 种 缺陷 类 型 ， 因 此 自由 度 一 共 为 6。 由 于 我 们 认为 它们 是 彼此 独立 的 ， 
所 以 会 得 到 (3-1) x (4-1)=6。 根据 卡 方 表 显示 ,任何 低 于 12.5916 的 数据 都 有 1/20 的 概率 是 完全 
随机 的 。 由 于 结果 是 19.18， 因 此 数据 不 太 可 能 是 随机 的 。 


累积 分 布 函 数 表明 值 19.18 的 概率 值 为 0.00387,， 相当 于 有 4/1000 的 概率 是 随机 的 。 完 整 分 
析 的 下 一 步 是 设计 一 个 后 续 研 究 ， 用 于 发 现 不 同 缺陷 类 型 和 轮换 的 详细 特性 。 需 要 找到 与 缺陷 
相关 性 最 大 的 自 变 量 ， 进 而 继续 分 析 。 这 项 工作 的 合理 性 在 于 这 的 值 表明 结果 并 不 是 简单 的 随 
机 变化 。 


一 个 补充 问题 是 关于 闪 值 12.5916 的 。 可 以 在 统计 表 中 找到 这 个 值 ， 也 可 以 直接 计算 这 个 阔 
值 。 这 会 引出 许多 函数 式 编程 的 有 趣 示例 。 



























































16.7.2 计算 卡 方 阐 值 
入 测试 的 本 质 是 一 个 阔 值 ， 它 基于 自由 度 个 数 和 我 们 愿意 接受 或 拒绝 零 假 设 的 不 确定 性 。 通 


常 建议 使 用 0.05 ( 1/20 ) 左右 的 阔 值 来 拒绝 零 假 设 。 我 们 希望 数据 只 有 1/20 的 概率 是 随机 而 有 意 
义 的 。 换 言 之 ， 我 们 希望 数据 有 19/20 的 概率 属于 简单 的 随机 变化 。 


由 于 卡 方 值 的 计算 涉及 许多 超越 函数 ， 因 此 通常 呈现 为 表格 形式 。 在 某 些 情况 下 ,软件 库 会 
提供 x 累积 分 布 函 数 的 实现 ， 这 使 得 我 们 可 以 计算 该 值 而 不 用 在 表格 中 查找 它 。 


对 于 一 个 交 值 x* 和 自由 度 f， 其 累积 分 布 函 数 定义 如 下 : 16 








型 
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通常 用 p= 1-F0 ;有 表示 随机 概率 ， 即 :如果 p>0.05， 则 数据 可 以 理解 为 随机 的 ， 此 时 零 假 
设 成 立 ， 否 则 数据 不 太 可 能 是 随机 的 ， 有 必要 进一步 研究 。 


累积 分 布 为 不 完全 伽 马 函 数 ys; 习 和 完全 伽 马 函 数 TO) 之 比 。 计 算 这 些 函 数值 的 通用 方法 可 
能 涉及 一 些 相 当 复杂 的 数学 计算 。 我 们 取 捷 径 巧 妙 地 实现 了 两 个 非常 好 的 近似 , 从 而 可 以 重点 关 
注 这 个 问题 本 身 。 这 两 个 函数 有 助 于 研究 函数 式 设计 中 的 一 些 额 外 问题 。 


这 两 个 函数 都 需要 进行 阶乘 计算 n!。 前 面 介绍 过 过 许多 阶乘 计算 形式 了 ,这 里 使 用 如 下 版 本 : 




















@lru_cache (128) 
def fact (Ki int)e => Tnts 
if k < 2: 
return 1 
return reduce(operator.mul, range(2, int(k)+1)) 


这 便 是 如 = [| i， 它 代 表 2 到 大 ( 含 玉 ) 的 乘积 。 该 实现 不 涉及 递归 。 由 于 Python 中 的 整 


2<i<k 


型 值 可 能 非常 大 ， 因 此 这 个 值 的 计算 并 没有 实际 上 限 。 





16.7.3 ”计算 不 完全 伽 马 函 数 


不 完全 伽 马 函数 具有 级 数 展 开 式 ,这 意味 着 需要 计算 一 系列 的 值 然 后 对 它们 进行 求 和 。 更 多 
相关 信息 ， 请 访问 http://dlmf.nist.gov/8。 











二 


0 Kk! s+k 


这 个 级 数 有 无 穷 多 个 项 , 这 些 值 最 终 会 变 得 很 小 以 至 于 相关 性 不 大 。 可 以 建立 一 个 极 小 值 s ， 
并 在 下 一 项 小 于 该 值 时 停止 计算 。 


(1 的 计算 会 产生 交替 的 符号 














CD), CD), C1), CD 和 = 一 1 一 1 … 
当 s=1 且 z=2 时 ， 序列 中 的 项 如 下 所 示 : 
2/1, -2/1, 4/3, -2/3, 4 /15, —4/45, *…, —2/638512875 


在 某 一 时 刻 ， 额 外 增加 的 每 一 项 都 不 会 显著 影响 结果 。 
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当 回 顾 累 积分 布 函数 Fox 有 时 ， 可 以 考虑 使 用 fractions .Fraction 值 。 自 由 度 大 除 以 2 
后 是 一 个 整数 。 值 x 既 可 以 是 Fraction， 也 可 以 是 float 值 ， 很 少 会 是 整 型 值 。 











一 














在 计算 ys, 习 中 的 项 时 ， 值 一 会 包含 整数 ， 并且 可 以 用 一 个 合适 的 Fraction 值 来 表示 。 
然而 ， 整 个 表达 式 并 不 总 是 一 个 Fraction 对 象 。 值 2 可 以 是 Fraction 或 float 值 。 如 果 
stk 不 是 整数 ， 则 会 导致 结果 为 无 理 数 。 对 于 无 理 数 ， 可 以 用 形式 较为 复杂 的 Fraction 对 象 来 
近似 表示 它们 的 值 。 

在 伽 马 函数 中 使 用 Fraction 值 是 可 行 的 ， 但 似乎 帮助 不 大 。 然 而 对 于 完全 伽 马 函数 ， 
Fraction 对 象 具有 潜在 优 热 。 鉴 于 此 ， 即 使 Fraction 对 象 能 得 到 无 理 数 值 的 近似 ,我 们 还 是 
会 在 此 实现 中 使 用 该 对 象 。 


对 上 面 阐述 的 级 数 展开 的 实现 如 下 所 示 : 


from typing import Iterator, Iterable, Callable, cast 
def gamma(s: Fraction, Zz: Fraction) -> Fraction: 























def terms(s: Fraction, z: Fraction) -> Iterator[Fraction]: 
"""Terms for computing partial gamma""" 
for k in range(100): 
t2 = Fraction(z**(s+k))/(s+k) 
term = Fraction((-1)**k, fact (k))*t2 
yield term 
warnings.warn ("More than 100 terms") 


def take untill( 

function: Callablel[..., bool], source: Iterable 
) -> Iterator: 
"""Take from source until function is false.""" 
for V in source: 

if test(v): 

return 

yield vy 


= 1E-8 
= sum(take until(lambda t: abs(t) < &, terms(s, 27z))) 
# sum() from Union[lFraction, int] to Fraction 

return cast (Fraction, g) 


这 样 就 定义 了 一 个 term() 函数 用 于 生成 一 系列 项 ， 其 中 限制 了 for 语句 最 多 生成 100 项 。 
也 可 以 使 用 itertools .count () 函数 来 生成 无 限 项 序列 , 但 这 里 使 用 带 上 限 的 循环 似乎 更 简单 


一 些 。 





Zk 


上 面 还 计算 了 一 个 可 能 是 无 理 数 的 2”**, 并 基于 这 个 值 创建 了 一 个 Fraction 值 。 除法 i 
NY 
会 涉及 两 个 Fraction 相 除 ， 并 生成 一 个 新 的 Fraction 值 赋 给 变量 tc2。 之 后 变量 term 的 值 
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是 这 两 个 Fraction 对 象 的 乘积 。 


此 外 定义 了 一 个 take_until() 的 函数 , 它 从 一 个 可 迭代 对 象 中 取 值 , 直到 给 定 的 函数 为 真 
时 结束 。 一 旦 该 函数 为 真 ， 可 和 迭 代 对 和 象 便 不 再 生成 新 值 。 上 面 还 定义 了 一 个 较 小 的 阔 值 < : 107。 
我 们 会 从 term() 函数 中 取 值 ， 直 到 取 到 的 值 小 于 。 这 些 值 的 和 是 对 伽 马 函数 部 分 的 近似 。 


请 注意 ， 阔 值 变量 是 希腊 字母 s 。Python 3 允许 变量 名 使 用 任何 Unicode 字符 。 
可 以 用 如 下 测 试用 例 验 证 计算 结果 是 否 正常 : 














OQ y(1,2)=1-e ”zz0.8646647 
Dy(1,3)=1-e “~0.9502129 


1 
站 中 j = Vixerf(V2) 21.6918067 





误差 限 数 erf () 可 以 在 Python 的 math 库 中 找到 ， 不 需要 专门 对 此 进行 近似 。 


我 们 重点 关注 卡 方 分 布 。 出 于 一 些 数学 上 的 考量 ,通常 对 不 完全 伽 马 函 数 不 感 兴趣 ， 因 此 可 
以 将 测试 用 例 缩 小 到 要 使 用 的 数值 类 型 上 , 还 可 以 限制 结果 的 精度 。 大 部 分 卡 方 测试 的 精度 取 到 
3 位 小 数 。 我 们 在 测试 数据 中 显示 了 7 位 小 数 ， 这 可 能 多 于 实际 需要 。 



































16.7.4 ”计算 完全 伽 马 函 数 


与 不 完全 伽 马 函 数 相 比 ， 完 全 伽 马 函 数 更 难 实现 ， 其 中 有 多 种 近似 方法 。 更 多 相关 信息 ， 
请 访问 http://dlmf.nist.gov/5。Python 的 math 库 中 有 一 个 可 用 的 版 本 ， 它 实现 了 一 个 广泛 适用 的 
近似 。 

我 们 对 完全 伽 马 函数 的 完整 通用 实现 并 不 感 兴趣 ， 只 关心 两 种 特殊 情况 : 整 型 值 和 二 分 值 。 
对 于 这 两 种 特殊 情形 ， 可 以 得 到 精确 的 解 ， 而 不 需要 依赖 近似 。 


对 于 整数 值 ，T, = (=-D!。 整 数 的 完全 伽 马 函 数 可 以 依赖 此 前 定义 的 阶乘 函数 。 




















对 于 二 分 值 ， 有 一 个 特殊 形式 ; [宁可 -9 。 它 包含 一 个 无 理 数 Vx ， 因 此 只 能 使 
n. 
用 float 或 Fraction 对 象 来 近似 表示 。 


如 果 使 用 合适 本 Fraction 值 ， 那么 可 以 用 以 下 几 个 简单 用 例 来 设计 一 一 个 函数 : 一 个 
integer 数值 、 一 个 分 母 为 1 的 Fraction 值 和 一 个 分 母 为 2 的 Fraction 值 。 可 以 如 下 所 示 
使 用 Fraction 人 


Sort. pi = Fraction(67 622 .71787 382.5307.718) 





from typing import Union 
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def Gamma_HalEf( 
k: Union[int, Fraction] 
) -> Union[int, Fraction]: 
if isinstance(k, int): 
return fact(k-1) 
elif isinstance(k, Fraction): 
if k.denominator == 
return fact(k-1) 
elif k.denominator == 
n = k-Fraction(1, 2) 
return fact (2*n)/ (Fraction(4**n)*fact (n))*sqrt_pi 
raise ValueError(f"Can't compute T({k})") 


将 这 个 函数 称 为 Gamma_Half 是 为 了 强调 它 只 适用 于 所 有 整数 二 分 数 。 对 于 整 型 值 ， 可 使 
用 前 面 定 义 的 fact () 函数 。 对 于 分 母 为 1 的 Fraction 对 象 ， 可 使 用 同一 个 fact () 定 义 。 


如 果 分 母 为 2， 可 以 使 用 更 复杂 的 闭 形式 值 。 我 们 对 值 fn! 显 式 使 用 了 一 个 Fraction() 馈 
还 为 无 理 数 Vx 提供 了 一 个 Fraction 近似 。 


























数 


> 


一 些 测试 用 例如 下 所 示 : 





DrO)=1 

DTG)=24 

O TL|=Va ~1.774539 ~ 352 2 
; 328 663 


Da 下。08862269 21270 
2) 2 328 663 








岂可 以 用 合适 的 Fraction 值 来 表示 它们 。 无 理 数 的 表示 (平方根 和 7 ) 往往 会 生成 数值 很 
大 且 可 读 性 很 差 的 分 数 。 可 以 使 用 更 易 读 的 分 数 形 式 ， 如 下 所 示 : 


>>> g = Gamma Half (Fraction(3, 2)) 
>>> g.limit_ denominator(2 000_000) 
Fraction(291270, 328663) 


这 里 给 出 的 值 ， 限制 了 其 分 母 小 于 200 万 ,这 样 就 得 到 了 易 读 的 6 位 数值 ， 可 以 用 它们 来 进 
行 单元 测试 。 





16.7.5 ”计算 随机 分 布 的 概率 


有 了 不 完全 伽 马 函数 gamma 和 完全 伽 马 函数 Gamma_Half， 就 可 以 计算 ?的 cpr 值 了 。 该 
值 表示 一 个 给 定 值 是 随机 还 是 具有 某 种 相关 性 。 


函数 本 身 十 分 短小 : 
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def cdf (x: Union[Fraction, float], k: int) -> Fraction: 


"nx2 cumulative qistripution function. 
:param x: X2 value, sum (obs[i]-exp[i])**2/exp[i] 
for parallel sequences of observed and expected values. 
:param k: degrees of freedom >= 1; often len(data)-1 
return 
1 ep 
gamma (Fraction(k, 2), 
Gamma_Half (Fraction(k, 


( 


Fraction(x/2)) / 
2)) 


) 


该 函数 包含 了 一 些 docstring 注释 用 于 解释 参数 。 我 们 通过 自由 度 和 卡 方 值 x 创建 了 合适 








~ 


的 Fraction 对 象 。 参 数 x 可 以 是 f 
完全 使 用 浮 点 近似 的 示例 。 





loat 值 或 者 Fraction 对 象 ， 这 种 灵活 履 





E 可 用 于 匹配 那些 


这 





可 以 使 用 Fraction(x/2) .1imit_denominator(1000) 将 x/2Fraction 方法 的 大 小 限 











制 为 相对 少量 的 数字 。 这 会 计算 出 

















以 下 是 从 x 表 中 调 取 的 一 些 示 例 数据 。 更 多 相关 信息 ， 


distribution 。 


个 正确 的 cpF 值 ， 而 不 是 包含 几 十 位 数 的 庞大 分 数 。 


可 参考 维基 百科 词 条 chi-squared 


执行 以 下 命令 以 计算 正确 的 cDF 值 : 


>>> round(float (cdf(0.004, 
0.95 

>>> cdf(0.004, 1).1limit denominator(100) 
Fraction(94, 99) 

>>> round(float (cdf (10.83, 
0.001 

>>> cdf(10.83, 1).limit denominator(1000) 
Fraction(1, 1000) 

>>> round(float (cdf(3.94, 
0.95 

>>> cdf(3.94, 10).limit denominator(100) 
Fraction(19, 20) 

>>> round(float (cdf (29.59, 
0.001 

>>> cdf(29.59, 10).limit denominator(10000) 
Fraction(8, 8005) 


在 给 定 x 和 多 个 自由 度 的 情况 下 , cDF 函数 生成 的 值 与 广泛 使 用 的 表格 中 的 值 一 致 。 第 一 个 


1)), 


2) 


1)), 3) 


10)), 


2) 


10)), 3) 


A 





示例 展示 了 1 个 自由 度 时 x¥ 为 0.004 的 概率 。 


示例 显示 了 1 个 自 





度 时 ?为 10.38 的 概率 。 








和 一 | 








小 的 党 值 意味 着 预期 结果 和 观测 结果 几乎 没有 差别 。 
下 面 是 刀 表 格 中 的 一 整 行 ， 由 一 个 简单 的 生成 器 表达 式 计算 得 到 : 





SS "Chi2, = T0004 0 0 O06 OL, O46 L097, Tebd, 71; 3.84; 6.64; 10..83] 
Sw Gt SLTound(ftioat (x) 3) 
for x in map(cdf, chi2, [1]*len(chi2))] 
> 
[0%95; ,0.888; Qi806; :099 O04987 0.301 O02 7 Oe, O505, “050L, 0.001] 
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这 些 值 显示 了 在 1 个 自由 度 下 , 给 定 闪 和 结果 之 间 的 相对 似 然 度 。 与 已 发 布 的 结果 相 比 ， 计 
算 结果 在 第 三 位 小 数 上 有 一 些 细微 差异 。 这 意味 着 可 以 使 用 cDF 计算 结果 代替 在 标准 统计 参考 
中 查找 到 的 xw 值 。 


函数 cDF () 给 出 了 随机 得 到 的 x 的 概率 值 。 


从 已 发 布 的 表 中 可 以 看 出 ，6 个 自由 度 下 概率 0.05 的 xw 值 为 12.5916。 该 cDF () 函数 的 输出 
如 下 ， 显 示 出 与 已 发 布 结果 较为 一 致 : 






































>>> round(float (caf (12.5916, 6)), 2) 

0.05 

回顾 先前 示例 ， 当 时 算出 达 的 实际 值 是 19.18。 该 值 为 随机 的 概率 是 : 
>>> round(float(caf(19.18，6))，5) 

0.00387 





当 分 母 限制 为 1000 时 ,概率 为 3/77$， 说 明 这 些 数据 不 太 可 能 是 随机 的 。 这 意味 着 我 们 可 以 
拒绝 零 假 设 ， 并 通过 更 多 的 分 析 来 确定 造成 差异 的 可 能 原因 。 





16.8 函数 式 编程 设计 模式 
函数 式 编程 有 许多 常用 的 设计 模式 ， 都 是 能 在 各 种 场景 中 使 用 的 典型 函数 式 编程 方法 。 


请 注意 它 与 面向 对 象 设计 模式 的 主要 区 别 。 许 多 面向 对 象 设 计 模 式 旨 在 使 状态 管理 更 加 明 
确 ， 或 者 协助 构建 复杂 的 紧急 行为 。 函 数 式 设计 模 式 的 重 在 从 简单 形式 创建 出 复杂 行为 。 


本 书 介绍 了 许多 常用 的 函数 式 设计 方法 ,其 中 大 多 数 尚未 给 出 专 有 的 名 称 或 来 历 。 本 闻 将 回 
顾 其 中 一 些 模式 。 


口 柯 里 化 : 可 以 在 偏 了 水 数 应 用 中 调用 它 ， 并 由 functools 模块 中 的 partial () 因数 来 实 

现 ， 其 思想 是 基于 现 有 的 函数 并 加 上 一 些 (并非 全 部 ) 函数 参数 来 创建 新 函数 。 

口 闭 包 : 在 Python 中 ， 很 容易 定义 一 个 返回 男 一 个 函数 的 函数 。 当 返回 的 函数 包含 外 部 函 
数 绑 定 的 变量 时 ， 它 就 是 一 个 财 包 。 通 常 在 函数 返回 匿名 对 象 或 生成 器 表达 式 时 完成 。 
也 可 以 将 它 作 为 创建 参数 化 装饰 器 的 一 部 分 来 实现 。 

口 纯 函 数 : 常用 的 无 状态 函数 。 在 Python 中 ， 还 可 以 使 用 非 纯 函数 来 处 理 有 状态 的 输入 和 
输出 。 此 外 ， 系 统 服务 和 随机 数 生 成 器 属于 非 纯 函数 的 例子 。 好 的 函数 式 设计 往往 强调 
尽量 使 用 纯 函 数 ， 而 避免 使 用 global 语句 。 

口 函数 式 复 合 : itertools 库 包 含 了 许多 函数 式 复合 的 工具 。 前 面 介绍 了 使 用 装饰 器 进行 

函数 式 复 合 的 方法 。 在 许多 情况 下 ， 创 建 可 调用 的 对 象 可 便于 在 运行 时 将 这 些 函 数 绑 定 

在 一 起 。 
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口 高 阶 函 数 : Python 有 许多 使 用 其 他 函数 的 内 置 函数 ， 包括 map()、filter()、min()、 
max() 和 sorted()。 此 外 ，functools 库 和 itertools 库 中 还 包含 其 他 一 些 示例 。 
口 Map-Reduce 算法 :很 容易 通过 高 阶 函 数 构建 得 到 ,在 Python 中 , 它们 相当 于 reduce (f， 
map (9g, data) ) 的 变 体 。 可 以 使 用 函数 £() 来 处 理 归 约 , 使 用 函数 g () 来 执行 逐 项 映射 。 
常见 的 归 约 例子 包括 sum() ， 以 及 statistics 库 中 的 许多 函数 。 
口 惰性 〈 非 严格 ) 求 值 : 例如 Python 生成 器 表达 式 。 像 表达 式 (f(a) for a in S) 就 是 
惰性 的 ， 只 会 在 客户 端 操 作 取 值 后 才 对 f(a) 进行 求 值 。 许 多 示例 使 用 了 1ist () 函数 从 
惰性 生成 器 中 取 值 。 
口 单子 : 由 于 在 Python 中 对 运算 进行 排序 是 不 可 避免 的 , 因此 通常 不 必 强 制 指定 执行 顺序 ， 
可 以 使 用 pymonad 库 提 供 的 一 些 显 式 语法 来 清楚 地 说 明 如 何在 更 复杂 的 表达 式 中 进行 排 
序 。 这 有 助 于 输入 和 输出 ， 对 具有 状态 化 行为 的 复杂 模拟 也 是 有 益 的 。 


除了 这 些 常 用 的 函数 式 编程 设计 模式 之 外 ，Python 中 还 有 其 他 一 些 技术 适用 于 函数 式 编程 : 


口 将 尾 递归 转换 为 for 语句 : Python 对 递归 设置 了 上 限 ， 且 很 少 有 循环 允许 超过 此 上 限 。 

更 重要 的 是 ， 递 归 涉 及 管理 栈 帧 的 开销 ， 这 在 for 语句 中 是 可 以 避免 的 。 

口 可 迁 代 函数 : 使 用 yieldq from 语句 可 以 轻松 创建 出 由 其 他 函数 结果 组 成 的 可 迭代 集合 

函数 。 使 用 可 迭代 对 象 结果 有 助 于 函数 式 复 合 。 

口 Python 装饰 顺和 可 调用 对 象 可 以 作为 函 子 。 在 类 ML 语言 中 ,哨子 用 于 将 类 型 定义 作为 
参数 。 在 Python 中 ， 类 型 定义 通常 是 基于 类 的 ， 而 且 明 智 的 做 法 是 将 这 些 定义 与 可 调用 

对 象 或 装饰 需 结 合 起 来 。 


所 有 这 些 函 数 式 设计 模式 都 可 以 描述 为 设计 和 实现 函数 式 编程 的 典型 方法 或 常用 方法 。 任 何 
一 种 频繁 重复 的 设计 都 会 形成 一 种 模式 ,我们 可 以 从 中 学 习 并 将 其 应 用 于 自己 的 软件 设计 。 



























































































































































16.9 小结 


本 章 介 绍 了 三 种 优化 技术 。 第 一 种 技术 涉及 寻找 正确 的 算法 和 数据 结构 , 这 对 性 能 的 影响 大 
于 其 他 单一 设计 或 编程 决策 ,使 用 正确 的 算法 可 以 很 容易 地 将 运行 时 间 从 几 分 钟 减少 到 几 分 之 一 
秒 。 例 如 将 使 用 不 当 的 序列 更 改 为 合理 使 用 的 映射 ， 可 能 会 将 运行 时 间 缩 减 至 1/200。 


通常 应 该 将 所 有 递归 优化 为 循环 。 在 Python 中 这 样 做 会 更 快 ， 并 且 不 会 因为 Python 的 调用 
栈 限 制 而 终止 。 前 面 有 许多 将 递归 扁平 化 为 循环 的 示例 ,尤其 在 第 6 章 。 此 外 ， 还 可 以 通过 其 他 
两 种 方式 保证 性 能 。 可 以 用 记忆 化 来 缓存 结果 。 对 于 数值 计算 , 这 可 能 会 产生 很 大 的 影响 ; 而 对 
于 集合 ,影响 可 能 较 小 。 或 者 用 可 迭代 对 象 百代 大 型 实例 化 数据 对 象 , 也 可 能 会 通过 减少 所 需 的 
内 存 管 理 量 而 提高 性 能 。 

本 章 的 案例 研究 展示 了 使 用 Python 进行 EDA 的 优势 ， 即 包含 少量 解析 和 过 滤 的 初始 数据 获 
取 。 在 某 些 情 况 下 ， 需 要 大 量 的 工作 来 归 一 化 来 自 不 同 源 的 数据 ， 这 是 Python 的 专长 。 








































































































16.9 ”小 结 275 





计算 多 值 涉及 3 个 sum() 函数 : 两 个 中 间 生 成 器 表达 式 和 一 个 最 终 创建 期 望 值 字典 的 生成 
器 表达 式 。 最 终 的 sum() 函数 创建 出 了 统计 信息 。 在 10 多 个 表达 式 中 ， 我 们 创建 了 一 个 复杂 的 
数据 分 析 用 于 协助 接受 或 拒绝 零 假 设 。 


本 章 还 求解 了 一 些 复杂 统计 函数 : 不 完全 伽 马 函 数 y(s, 习 和 完全 伽 马 函 数 工 各 。 不 完全 伽 马 
函数 包含 一 个 无 穷 级 数 ,我们 将 其 截断 并 求 和 。 完 全 伽 马 函 数 有 一 定 的 淤 在 复杂 性 ,但 并 不 适用 
于 这 种 情形 。 

使 用 函数 式 方法 可 以 编写 出 简洁 明了 的 程序 来 完成 大 量 运 算 。 Python 不 是 纯粹 的 函数 式 编程 
语言 ， 有 时 需要 使 用 一 些 命令 式 编 程 技术 。 该 限制 迫使 我 们 远离 纯 函 数 式 递 归 。 由 于 被 迫 需 要 将 
尾 递归 优化 为 显 式 的 循环 ， 因 此 可 以 获得 一 些 性 能 上 的 优势 。 


此 外 还 介绍 了 采用 Python 混合 函数 式 编程 的 许多 优点 ， 特 别 是 使 用 Python 的 高 阶 函 数 和 生 
成 器 表达 式 提 供 了 许多 编写 高 性 能 程序 的 方法 ， 并 且 这 些 方法 非常 简洁 清晰 。 
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